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针对 概率 态 认 知 诊断 模型 (CDM) 


仅 能 分 析 题 目 作答 精度 (RA) 的 局 限 , 本 文 基于 联合 -层级 建 模 框架 和 联合 -交叉 负载 建 模 框架 提出 三 个 可 联合 分 析 
RA 和 题目 作答 时 间 (RT) 的 概率 态 联合 CDM。 模 拟 研 究 和 实证 研究 结果 表明 : (1) 新 模型 参数 估计 返 真 性 良好 ， 额 
外 引入 RT 有 助 于 提高 参数 估计 精度 并 提供 有 关 个 体 加 工 速度 的 测量 ; (2) 基 于 联合 -交叉 负载 建 模 框架 构建 的 模型 


对 测验 情境 的 兼容 性 优 于 基于 联合 
属性 的 掌握 情况 。 
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1 引言 


认 知 诊断 测评 可 以 提供 有 关 学 生 知识 结构 或 
加 工 技 能 (统称 为 “(潜在 ) 属 性 ”) 的 诊断 信息 ; 可 为 
教师 实施 补救 教学 或 有 针对 性 干预 提供 参考 ， 有 助 
于 促进 学 生发 展 (Tang & Zhan, 2021)。 认 知 诊断 模 
型 (cognitive diagnosis model，CDM) 是 刻画 属性 与 
外 显 行 为 之 间 关 系 的 统计 模型 ,其 建构 的 合理 性 
(如 ,模型 与 测试 情境 的 匹配 度 ) 影 响 诊断 结果 的 准 
确 性 和 可 解释 性 。 目 前 ， 大致 可 将 属性 分 为 两 种 : 
确定 态 属 性 (deterministic attribute) 和 概率 态 属 性 
(probabilistic attribute): 前 者 将 被 试 的 属性 掌握 状 
态 诊断 为 确定 的 类 别 (如 ,“1” 表 示 掌 握 ,“0” 表 示 未 
掌握 ); 而 后 者 将 被 试 对 属性 的 掌握 诊断 为 0 到 1 的 
连续 状态 ,用 于 量化 被 试 对 属性 的 擎 握 概率 (如 ， 
“0.8” 表 示 掌 握 概 率 为 80%) (Zhan, Wang, et al., 
2018)。Zhan (2021) 进 一 步 指 出 概率 态 属 性 是 “个 体 
掌握 某 种 属性 的 说 法 是 正确 的 概率 (the probability 
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层级 建 模 框架 构建 的 模型 ; (3) 概 率 态 属 性 比 确定 态 忆 
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that the statement that a person masters an attribute is 
true)”， 即 概率 态 属性 并 没有 否定 属性 的 二 分 特性 ， 
只 是 从 概率 视角 对 其 进行 解读 和 建 模 。 相 比 于 确定 
态 属性 ， 概 率 态 属性 能 更 精细 地 区 分 被 试 间 的 个 体 
差异 ( 詹 沛 达 ， 田 亚 淑 等 , 2020); 尤其 是 在 描述 被 
试 发 展 情况 时 ， 基 于 概率 态 属 性 的 反馈 比 基 于 确定 
态 属 性 的 反馈 更 精细 地 反映 学 生 的 发 展 变化 (Zhan， 
2021)， 更 有 益 于 肯定 学 生 的 努力 。 

针对 不 同 的 测验 情境 和 理论 假设 , 研究 者 们 提 
出 了 不 同 的 概率 态 CDM (EAB, 2014; Wi, 
WEJ, 2015; Liu et al., 2018; Zhan, Wang, et al., 
2018; Zhan, 2021)。 然而 , 现 有 的 概率 态 CDM SEAT 
析 单 一 模 态 数据 一 一 题目 作答 精度 (response accuracy, 
RA), 忽略 了 诸如 题目 作答 时 间 (response times, 
RTs)、 鼠 标点 击 次 数 和 行动 序列 等 过 程 数 据 。 其 中 ， 
RT 作为 一 种 有 代表 性 的 过 程 数 据 ， 是 指 被 试 作答 
每 道 题目 花费 的 时 间 ; 可 以 反映 被 试 的 (潜在 ) 加 工 
速度 。 ART, 无 论 是 大 规模 测评 项 目 [如 ,国际 学 生 
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评估 项 目 (PISA)、 美 国 国 家 教育 进展 评估 (NAEP) 
和 国际 数学 与 科学 趋势 研究 (TIMSS)], 还 是 一 些 具 
有 实验 性 质 的 小 规模 测评 (如 ,游戏 化 测评 )， 记 录 
RT 已 经 成 为 一 种 常态 。 

近 些 年 , 研究 者 们 开发 了 一 系列 RT 分 析 模 型 
GBA 等 , 2017; de Boeck & Jeon, 2019)。 已 有 人 研究 
表明 数据 分 析 时 额外 引入 RT, 有 助 于 提高 被 试 参 
数 估计 的 精度 (Bolsinova & Tijmstra, 2018; Zhan, 
Jiao, & Liao, 2018), 并 有 助 于 识别 被 试 的 异常 作答 
行为 (Wang & Xu, 2015); 通过 RT 所 反映 的 加 工 速 
度 还 可 以 进一步 探索 被 试 的 认 知 风格 (如 ，Yan, 
2010)， 丰 富 诊 断 反馈 所 包含 的 信息 (Zhan et al., 
2022)。 鉴 于 在 数据 分 析 中 引入 RT 的 诸多 优势 ， 如 
何 将 RT 引入 概率 态 CDM 以 进一步 提高 参数 估计 
精度 并 丰富 诊断 反馈 信息 ， 是 一 个 有 待 解决 的 方法 
学 问题 。 

目前 , 在 认 知 诊断 测评 中 , 联合 -层级 认 知 诊 
断 建 模 框 架 (Zhan，Jiao,，&& Liao，2018) 是 同时 分 析 
RA 和 RT 的 主要 框架 之 一 ,如 图 1 所 示 。 在 该 框架 
中 , RA 用 于 测量 被 试 的 属性 和 (潜在 ) 能 力 .RT 用 于 
测量 被 试 的 加 工 速 度 。 该 框架 具有 较 高 灵活 性 ， 可 
通过 替换 该 框架 中 的 测量 模型 实现 不 同 的 数据 分 
析 需 求 (Huang, 2020; Peng et al., 2022; Zhan et al., 
2022; 詹 沛 达 , 2022; ASAMS SE, 2023)。 目 前 , AHE 
架 下 的 所 有 模型 都 是 针对 确定 态 属性 构建 的 ， 难 以 
精细 化 区 分 被 试 间 的 个 体 差 异 或 提供 精细 化 反馈 。 
鉴于 该 框架 的 灵活 性 ,可 尝试 将 概率 态 CDM 引入 
该 框架 ,构建 可 联合 分 析 RA 和 RT 的 联合 -层级 概 
率 态 CDM, 这 是 本 研究 拟 解 决 的 第 一 个 主要 问题 。 


图 1 联合 -层级 认 知 诊断 建 模 框架 中 条 件 独立 性 假设 

示意 图 
ik: RA= 作答 精度 ; RT = 作答 时 间 ; 9 = 能 力 ; t= 加 工 速度 ; a = 
属性 ; p = 能 力 与 加 工 速度 的 相关 系数 ; 虚线 表示 模型 的 条 件 
独立 假设 :a = 给 定 能 力 和 加 工 速度 后 , RT 和 RA 条 件 独 立 ;b = 
给 定 加 工 速 度 后 ,能力 和 RT 条 件 独立 ; c = 给 定 能 力 和 加 工 速 
度 后 , 属性 和 RT 条 件 独 立 ; d = 给 定 能 力 后 ， 加 工 速度 和 RA 
条 件 独 立 ;e = 给 定 能 力 后 ， 加 工 速度 和 属性 条 件 独立 . 


联合 -层级 认 知 诊断 建 模 框架 作为 联合 -层级 
建 模 框架 (van der Linden, 2007) 在 认 知 诊断 测评 中 
的 应 用 ,尽管 得 到 了 较 广泛 的 研究 支持 , 但 基于 该 
框架 所 构建 的 联合 模型 至 少 需 要 满足 5 个 条 件 独 立 
性 假设 才能 够 合理 、 准 确 地 对 数据 进行 分 析 和 人 解 
释 。 如 图 1 所 示 : 

(1) 给 定 能 力 和 加 工 速度 后 , RT 和 RA 之 间 条 件 
独立 (图 1 中 a); 

(2) 给 定 加 工 速 度 后 , 能 力 和 RT 之 间 条 件 独立 
(图 1 中 b) 

(3) 给 定 能 力 后 和 加 工 速度 后 ， 属 性 和 RT 之 间 
条 件 独立 (图 1 中 c); 

(4) 给 定 能 力 后 ， 加 工 速 度 和 RA 之 间 条 件 独立 
(图 1 中 d) 

(5) 给 定 能 力 后 ,加 工 速度 和 属性 之 间 条 件 独 
立 (图 1 中 日 。 

RM, 有 研究 发 现实 际 测验 中 存在 违背 上 述 假 
设 的 情况 。 比 如 ，Meng 等 人 (2015) 发 现 RT 和 RA 
之 间 存 在 一 个 变量 (如 ,题目 难度 ) 使 得 两 者 有 相依 
HE; Bolsinova 等 人 (2017) 尝 试 对 RA 和 RT 之 间 的 条 
件 独 立 性 进行 建 模 ; Bolsinova 和 Tijmstra (2018) 释 
放 能 力 和 RT 之 间 条 件 独 立 性 假设 后 发 现 可 以 进 一 
步 提 高 能 力 的 估计 精度 。 同 时 ， 上 述 条 件 独 立 性 假 
设 也 使 得 联合 -层级 认 知 诊断 建 模 框架 只 能 通过 能 
力 和 加 工 速度 之 间 的 相关 性 ( 即 , 图 1 中 p) 来 获取 
RT 中 所 包含 的 辅助 信息 ， 进 而 达到 提高 诊断 分 类 准 
确 性 的 目的 ( 詹 沛 达 , 2022); 类 似 的 理论 缺陷 在 联合 - 
层级 建 模 框架 中 也 存在 (Ranger，2013; Bolsinova & 
Tijmstra, 2018)。 而 在 实际 测验 中 ,可 能 存在 能 力 和 
加 工 速度 之 间 的 相关 系数 较 低 ， 甚 至 趋 近 于 零 的 情 
况 (Bolsinova et al, 2017); 此 时 基于 联合 -层级 认 
知 诊断 建 模 框架 所 构建 的 模型 将 难以 从 RT 中 获取 
能 力 或 属性 的 相关 信息 。 针 对 上 述 局 限 ， 詹 沛 达 
(2022) 提 出 了 联合 -交叉 负载 (载荷 ) 认 知 诊断 建 模 
框架 ， 该 建 模 框架 通过 交叉 负载 直接 利用 RT 为 能 
力 或 属性 提供 信息 ， 释 放 了 联合 -层级 认 知 诊断 建 
模 框 架 的 部 分 条 件 独立 性 假设 (图 1 F bak c), 增加 
了 建 模 框架 的 适用 范围 。 郑 天 鹏 等 人 (2023) 在 联合 - 
层级 认 知 诊断 建 模 框架 的 基础 上 尝试 释放 了 图 1 中 
条 件 独 立 性 d, 认为 被 试 的 加 工 速度 会 影响 其 正确 
作答 概率 。 虽然 释放 图 1 中 任 一 条 件 独立 性 假设 路 
径 在 理论 上 都 是 可 以 的 , 但 考虑 到 联合 建 模 的 主要 
目的 之 一 是 为 了 促进 对 核心 特质 ( 即 能 力 ) 的 估计 精 
度 ， 所 以 释放 b 或 路 径 是 一 种 更 常见 的 选择 
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(Bolsinova & Tijmstra, 2018; 詹 沛 达 , 2022)。 基 于 此 ， 
本 研究 拟 在 所 构建 的 联合 -层级 概率 态 CDM 的 基 
fli E, 借鉴 联合 -交叉 负载 认 知 诊断 建 模 框 架 ， 进 
一 步 构建 联合 -交叉 负载 概率 态 CDM (joint-cross- 
loading CDM for probabilistic attributes)， 这 是 本 研 
究 拟 解决 的 第 二 个 主要 问题 。 
针对 上 述 两 个 研究 问题 ,本 研究 旨 在 丰富 概率 
A CDM 的 可 分 析 数 据 类 型 ， 并 为 以 精细 化 诊断 作 
为 数据 分 析 目 标的 测评 提供 框架 支持 。 在 实践 中 ， 
全 面 且 精准 地 了 解 学 生 的 学 习 现 状 是 因材施教 的 
必要 前 提 ; 使 用 联合 概率 态 CDM 不 仅 可 以 实现 对 学 
生 学 习 状 态 的 精细 化 区 分 ， 为 因材施教 和 精准 教学 
落地 提供 数据 支持 ， 还 可 以 提供 有 关 学 生 加 工 速度 
的 分 析 结果 ， 有 助 于 了 解 学 生 的 认 知 或 学 习 风 格 。 
下 文 首先 简单 回顾 联合 -层级 和 联合 -交叉 负 
载 认 知 诊 断 建 模 框架 ， 以 及 一 个 有 代表 性 的 概率 态 
CDM 一 一 高 阶 概率 态 输入 ， 噪 音 连 接 (higher-order 
probabilistic-inputs, noisy conjunctive, HO-PINC) 模 
型 (Zhan, Wang, et al., 2018)。 其 次 , 依次 通过 两 个 
模拟 研究 分 别 阐述 并 探究 基于 上 述 两 框架 所 构建 
的 三 个 新 模型 。 然 后 , 通过 第 三 个 模拟 研究 来 交叉 
对 比 三 个 新 模型 的 表现 ,再 然后 ,以 一 则 PISA 2012 
计算 机 化 数学 测验 数据 为 例 来 展现 三 个 新 模型 的 
实践 可 应 用 性 及 相对 优势 。 最 后 ， 总 结 研 究 并 指出 
研究 局 限 及 未 来 的 拓展 方向 。 


2 两 个 联合 认 知 诊断 建 模 框架 与 概 
率 态 认 知 诊断 模型 


图 2 呈现 了 两 种 联合 认 知 诊断 建 模 框架 的 示意 
图 ,其 中 图 2(a) 为 联合 -层级 认 知 诊断 建 模 框架 
(Zhan, Jiao, & Liao, 2018)。 该 建 模 框架 包含 两 层 模 
型 : 第 一 层 为 测量 模型 ， 比 如 以 高 阶 DINA(de la 
Torre & Douglas, 2004) 作 为 RA 的 测量 模型 ， 并 以 
对 数 正 态 RT 模型 (lognormal RT model, LRTM) (van 
der Linden, 2006) 作 为 RT 的 测量 模型 ; 第 二 层 为 结 
构 模 型 ， 采 用 二 元 正 态 分 布 描述 能 力 与 加 工 速度 之 
间 的 关系 。 图 2(b) 和 图 2(c) 为 联合 -交叉 负载 认 知 
诊断 建 模 框 架 下 的 两 种 建 模 方式 ( 詹 沛 达 , 2022) : 前 
者 基于 能 力 , 假设 RT 先 对 能 力 提供 辅助 信息 ( 即 被 
试 的 能 力 高 低 会 影响 RT),， 进 而 间接 影响 属性 的 分 
类 准确 性 ; 后 者 基于 属性 , 假设 RT 直接 对 属性 提 
供 辅助 信息 ( 即 被 试 的 属性 掌握 情况 会 影响 RT)。 


(a) 联合 -层级 认 知 。”(b) 基 于 高 阶 能 力 的 (c) 基 于 属性 的 
诊断 建 模 联合 -交叉 负载 联合 -交叉 负载 
认 知 诊断 建 模 认 知 诊断 建 模 


图 2 ”联合 -层级 和 联合 -交叉 负载 认 知 诊断 建 模 示意 图 
注 : RA= 作答 精度 ; RT = 作答 时 间 ; 6 = 8877; c= 加 工 速度 ; a = 
属性 . 


目前 两 建 模 框架 中 属性 均 为 确定 态 属 性 ( 即 二 
分 属性 )， 进 而 能 力 与 属性 之 间 的 关系 被 定义 为 (de 
la Torre & Douglas, 2004): 

logit(Prob(a,, —1|0,, 44, 4,)) = A0, + Aon» (1) 
EP, a, 为 被 试 n 对 属性 的 掌握 类 别 ，ww € 
{0.13;2, 为 被 试 n 的 能 力 ; Ag, 和 分别 为 属性 k 
的 截 距 和 区 分 度 参 数 。 

与 确定 态 属 性 不 同 ,概率 态 属性 常 被 赋值 为 一 
个 0 到 1 之 间 的 (概率 ) 数 值 。 考 虑 到 属性 之 间 的 相 
ATE, Zhan, Wang 等 (2018) 将 概率 态 属性 构建 为 : 

logit(m,,) = 4,0, + Ao, , (2) 
其 中 ,概率 态 属 性 m,, 可 反映 被 试 n 对 属性 大 的 掌 
HRK, mp e (0,1) ; 其 他 参数 含义 同上 。 

Zhan (2022) 进 一 步 指 出 mx 和 Prob(a,, —1|0,) 
尽管 有 相同 的 表达 式 , 但 由 于 和 能 和 测量 模型 的 方式 
不 同 ， 导 致 两 者 在 解释 上 具有 差异 性 。 前 者 可 被 解 
释 为 被 试 对 属性 的 掌握 概率 ， 其 数值 变化 会 直接 影 
响 被 试 的 正确 作答 概率 。 而 后 者 可 被 解释 为 被 试 归 
入 “掌握 ”类 的 确定 性 程度 ， 类似 于 连续 变量 估计 中 
的 标准 误 , 反映 的 是 分 类 的 误差 或 确定 性 程度 
(Bradshaw & Levy, 2019); 因 其 数值 变化 并 不 影响 
被 试 的 正确 作答 概率 ,， 仅 影响 分 类 的 确定 性 ， 所 以 
不 应 被 解释 为 被 试 对 属性 的 掌握 概率 (Zhan, 2021)。 

基于 公式 2, HO-PINC 的 题目 作答 函数 (item 
response function, IRF) 可 以 被 构建 为 : 


K 
Prob(X,; =1| M, Zis Siqi) = g; * (1^5; -2)] rt (3) 
k=l 


式 中 , g 和 8 分 别 为 题目 ;的 猜测 参数 和 失误 参 

数 ; gx 为 Q 和 矩阵 (Tatsuoka, 1983) 中 元 素 , qi = 1 表示 
K 

题目 i 考查 属性 k, 反之 qu 0; | [ot 为 被 试 n 对 


k=1 
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题目 i 的 理想 作答 概率 ,表示 同时 掌握 题目 i 所 需 
的 多 个 属性 的 联合 概率 ; 其 他 参数 含义 同上 。 


3 研究 1: 针对 作答 精度 和 时 间 的 
联合 -层级 概率 态 认 知 诊断 模型 


3.1 ”模型 构建 

遵循 联合 -层级 认 知 诊断 建 模 框 架 ， 新 模型 共 
包含 两 层 模型 。 第 一 层 为 测量 模型 ， 其 中 RA 模型 
采用 HO-PINC (公式 3), RT 模型 采用 LRTM: 

logT,;  N(& -1,07 ), (4) 

式 中 , T, NOIR n 作 管 题目 i 所 花费 的 时 间 ; c, 为 被 
iX n 的 加 工 速度 ; &; 和 1/o; 分 别 为 题目 i 的 时 间 强 度 
参数 和 时 间 精 度 参数 。 第 二 层 为 结构 模型 ， 包 含 用 
于 描述 能 力 和 加 工 速度 之 间 关 系 的 和 用 于 描述 题 
目 参数 之 间 相 依 性 的 两 个 多 元 正 态 分 布 , 分 别 为 : 


0, 0 02 
~ MVN , D onion , Eon = > (5) 
Tn 0 Og, O. 2 


和 
logit (g;) 8; He- 
logit(1—s;)—logti(g;) |=| s; |~ MVN H | Eitem |， 
Si Ši Hg 
B 
8 
Litem = e gr ý (6) 
Peg Cue Og 


IP, gr Als; 分 别 为 转换 到 logit 量 尺 上 的 猜测 参 
数 和 失误 参数 ， 以 保证 可 以 与 & 构建 多 元 正 态 分 布 
(Zhan, Jiao, & Liao, 2018; Zhan et al., 2022)。 综 上 ， 
本 研究 将 公式 2-6 称 为 针对 作答 精度 和 时 间 的 联合 一 
层级 PINC (JRT-PINC) 模 型 。 

基于 联合 -层级 建 模 框架 ， 为 使 模型 可 识别 ， 
JRT-PINC 需要 满足 如 下 条 件 独立 性 假设 : 

(1) Axe ,后 ,各 mi 满足 条 件 独立 ; 

(2) 给 定 mx 后 ,各 已 ;满足 条 件 独立 ; 

(3) 给 定 6 后 ,各 1ogT; 满 足 条 件 独 立 ; 

(4) 44% 9, fI c, Je, X,; All logT,; W e A PER vr; 


* * * ë k * * Ok * Ok * o * * 


(5) 给 定 On JA, 各 和 mi 满足 条 件 独 立 ; 

(6) 给 定 0, 和 mw， 各 c, FU Xn HE ARTE T; 

(7) 555€ 0, Il c, Ja, m, I logT, WEAR PE; 

(8) 给 定 v, Ji, ,和 logT,; 满足 条 件 独 立 。 

其 中 , 前 3 个 条 件 独 立 性 假设 是 测量 模型 自身 
所 需 的 , 后 5 个 条 件 独立 性 假设 是 联合 -层级 建 模 
框架 所 需 的 ( 同 引言 )。 
3.2 ”参数 估计 

本 研究 采用 全 贝 叶 斯 MCMC 算法 对 JRT-PINC 
进行 参数 估计 , 使 用 R 软件 中 的 R2jags 包 (Version 
0.7-1) 调 取 JAGS 软件 (Version 4.3.0) 实 现 参数 估计 。 
网 络 版 附录 S1 节 对 比 了 新 模型 在 有 经 验 信息 先 验 
下 和 低 信息 先 验 下 的 表现 ， 两 种 情况 下 结果 一 致 性 
较 高 ， 表 明 新 模型 对 包含 不 同 信 息 量 的 先 验 分 布 具 
有 一 定 的 鲁 棒 性 。 新 模型 的 参数 估计 JAGS 代码 及 
示例 数据 见 https://osf.io/hys7c/?view_only=cb357a 
6f5032424ab36b7fbda6df4d40， 关 于 如 何 使 用 JAGS 
进行 贝 叶 斯 参数 估计 可 参见 Zhan 等 (2019)。 
3.3 ”模拟 研究 
3.3.1 ”数据 生成 

模拟 研究 包括 4 个 自 变 量 : (1) 样 本 量 (N): 200 
和 500; (2) 题 目 数量 (): 15 和 30; (3) 能 力 与 加 工 速 
度 的 相关 系数 (poi): -0.5, —0.3, 0, 0.3 和 0.5; (4) 数 据 
分 析 模 型 .JRT-PINC 和 HO-PINC, 用 于 探究 额外 引 
A RT 对 参数 估计 精度 带 来 的 影响 。 此 外 属性 数 (K) 
国定 为 5 个 , 对 应 的 Q 和 矩阵 见 图 3. 该 Q 和 矩阵 包含 两 
个 可 达 和 矩阵 ， 以 保证 其 完备 性 和 可 识别 性 (Xu & 
Zhang, 2016). 人 研究 选择 的 题目 数量 、 样 本 量 和 其 他 
相关 参数 均 参 考 已 有 研究 设置 (如 ， 詹 沛 达 , 2022)。 

题目 参数 依据 公式 6 生成 : 所 有 题目 猜测 参数 
均值 u- = -2.197、 所 有 题目 失误 参数 均值 人 - = 
4.394 和 所 有 题目 时 间 强 度 参 数 均值 := 4; 各 参数 
的 方差 协 方差 矩阵 为 : 


—|o.. o = 
s S 


1 
—0.8 1 ! 
-0.23 0.15 0.25 


"m 


K1 
K2 
K3 


E | 


K5 | 


图 3 研究 1 中 模拟 研究 的 Q 和 矩阵 


注 : 灰色 为 “<1”、 白 色 为 “0”; 标记 * 的 题目 为 I= 15 
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表 1 研究 1 中 能 力 和 加 工 速度 参数 估计 返 真 性 
JRT-PINC HO-PINC 

N 了 Por 0 t 0 
Bias RMSE Cor Bias RMSE Cor Bias RMSE Cor 
—0.5 —0.001 0.458 0.887 0.000 0.121 0.896 —0.002 0.479 0.875 
—0.3 —0.003 0.468 0.881 0.001 0.122 0.896 —0.002 0.480 0.875 
15 0.0 —0.003 0.473 0.879 —0.000 0.122 0.949 —0.004 0.480 0.875 
0.3 —0.001 0.469 0.881 —0.001 0.121 0.899 —0.003 0.480 0.874 
0.5 —0.000 0.458 0.887 —0.000 0.120 0.902 —0.001 0.483 0.874 
x —0.5 —0.001 0.397 0.915 —0.000 0.085 0.953 —0.004 0.412 0.908 
—0.3 0.000 0.403 0.913 —0.001 0.086 0.953 —0.004 0.411 0.909 
30 0.0 —0.002 0.405 0.911 —0.000 0.086 0.975 —0.004 0.413 0.908 
0.3 —0.002 0.397 0.915 —0.002 0.086 0.954 —0.004 0.410 0.909 
0.5 —0.003 0.389 0.919 —0.001 0.085 0.953 —0.005 0.411 0.909 
—0.5 —0.000 0.456 0.888 —0.000 0.121 0.902 0.000 0.476 0.876 
—0.3 0.000 0.467 0.881 —0.001 0.122 0.901 0.000 0.477 0.876 
15 0.0 —0.000 0.473 0.878 —0.000 0.122 0.948 —0.001 0.476 0.875 
0.3 —0.001 0.470 0.880 —0.001 0.122 0.901 —0.001 0.478 0.875 
0.5 —0.000 0.460 0.885 —0.001 0.121 0.903 —0.001 0.478 0.876 
a —0.5 0.000 0.391 0.918 —0.000 0.088 0.948 0.000 0.407 0.911 
—0.3 0.002 0.400 0.914 —0.001 0.088 0.948 0.000 0.407 0.911 
30 0.0 —0.001 0.402 0.913 —0.000 0.089 0.973 0.000 0.405 0.912 
0.3 0.000 0.397 0.915 —0.001 0.088 0.948 0.000 0.405 0.912 
0.5 0.001 0.387 0.920 0.000 0.088 0.948 0.000 0.405 0.912 


TE: JRT-PINC = 联合 -层级 概率 态 输入 ,噪音 连接 模型 ; HO-PINC = 高 阶 概率 态 输 入 ,噪音 连接 模型 ; 0 = 能 力 ; v = 加 工 速度 ; N = 
样本 量 ; I= 题目 数量 ; po = 能 力 与 加 工 速度 的 相关 系数 ; Bias = 所 有 被 试 的 平均 偏差 ; RMSE = 所 有 被 试 的 平均 均 方 根 误差 ; Cor = 


估计 值 与 真 值 之 间 的 相关 系数 . 


另外 , 设 定 所 有 题目 的 时 间 精 度 参数 均 为 1/0; = 2。 

被 试 参数 依据 公式 5 生成 其中, 能 力 的 方差 
o; = 1 且 加 工 速度 的 方差 ct = 0.15。 被 试 的 概率 态 
属性 依据 公式 2 生成 , 设 定 所 有 属性 的 区 分 度 参 数 
为 和 x = 1.5, BERESI M = (71.0, -0.5, 0.0, 
0.5，1.0)”， 此 时 各 属性 间 为 中 等 相关 。 最 终 , 根据 
JRT-PINC 生成 所 有 被 试 在 所 有 题目 上 的 RA 和 
RT。 为 减少 随机 误差 ， 每 种 模拟 条 件 下 各 生成 30 
组 数据 。 
3.3.2 分 析 

分 别 使 用 JRT-PINC 和 HO-PINC 分 析 该 数据 。 
分 析 采 用 两 条 马尔 可 夫 链 (初始 值 随机 )， 每 条 链 包 
含 10,000 次 迭代 ,前 5,000 次 用 于 预 热 (burn-in)。 
采用 潜在 量 尺 缩减 因子 (potential scale reduction 
factor，PSRF) 检 验 各 参数 是 否 收敛 , PSRF < 1.1 或 
1.2 表示 参数 已 收敛 (de la Torre & Douglas, 2004; 
Zhan, Jiao, & Liao, 2018)。 使 用 后 验 均 值 作 为 贝 叶 
斯 参数 估计 的 “点 ”估计 结果 。 使 用 偏差 (bias) 、 均 方 
根 误差 (root mean square etrror RMSE) 和 皮尔 逊 积 


差 相 关系 数 (Cor) 作 为 参数 估计 返 真性 指标 。 
3.3.3 ”结果 

结果 显示 所 有 参数 的 PSRF 均 小 于 1.2， 表示 各 
参数 均 已 收敛 。 dx 1 呈现 了 能 力 参数 和 加 工 速度 参 
数 的 返 真性 。 首先 , IRT-PINC 中 能 力 人 参数 (9) 的 佑 计 
返 真 性 优 于 HO-PINC 的 ， 表 明 额 外 引入 RT 所 包含 
信息 有 助 于 提高 能 力 参 数 的 估计 精度 。 其 次 ， 
JRT-PINC 的 能 力 参 数 和 加 工 速度 参数 (t) 在 所 有 模 
拟 条 件 下 的 返 真性 均 表 现 较 好 ， 且 Cor 指标 反映 出 
加 工 速度 参数 的 返 真性 优 于 能 力 参 数 的 。' 再 有 ， 对 
JRT-PINC 而 言 ， 能 力 与 加 工 速度 的 相关 系数 (pez) 越 
高 ， 能 力 参 数 的 返 真 性 越 好 ,但 加 工 速度 参数 的 返 
真性 不 受 影 响 ; 该 结果 与 已 有 联合 模型 研究 的 发 现 
一 致 ， 即 两 特质 之 间 的 相关 系数 越 高 ， 越 有 助 于 能 
力 参 数 汲 取 RT 中 包含 的 信息 。 且 即便 是 在 po, = 0 


! 由 于 能 力 参 数 和 加 工 速度 参数 的 真 值 的 方差 不 同 ( 即 量 尺 不 同 )， 
难以 直接 通过 Bias 和 RMSE 比较 两 者 的 返 真 性 优 劣 ; 而 Cor 指 
标 是 从 参数 估计 值 和 真 值 的 排序 一 致 性 角 


性 的 ， 并 不 受 量 尺 差异 的 影响 。 


度 反映 参数 佑 计 返 真 


=k. 


1578 心 p 


学 d 


第 55 X% 


的 条 件 下 , JRTPINC 中 能 力 参 数 的 返 真 性 仍 略 优 于 
HO-PINC 中 的 ; 这 可 能 由 于 参数 估计 时 JRT-PINC 
仍 假设 能 力 会 通过 潜在 结构 (二 元 正 态 分 布 ) 去 利用 
RT 所 包含 的 信息 ,进而 自由 估计 两 者 之 间 的 协 方 
差 导 致 的 。 此 外 , por 的 正 负 号 对 结果 没有 影响 。 整 
体 而 言 ， 题目 数量 越 多 ,能 力 与 加 工 速度 相关 系数 
越 高 , JRT-PINC 的 被 试 参数 返 真性 越 好 ; 样本 量 提 
高 也 有 助 于 提高 被 试 参数 的 返 真 性 , 但 影响 较 小 ; 
这 意味 着 200 被 试 的 样本 量 足 以 满足 JRT-PINC 被 
试 参数 估计 的 要 求 。 

A 2 呈现 了 属性 参数 的 返 真性 (bias 见 网 络 版 
附录 中 表 S2.1)。, 首 先 , JRT-PINC 在 各 条 件 下 的 返 真 
性 均 较 好 。 题 目 数量 越 多 ,能 力 与 加 工 速度 相关 系 
数 越 高 ， 则 属性 的 返 真 性 越 好 ; 同样 ， 样 本 量 提高 
也 有 助 于 提高 属性 的 返 真 性 ,但 影响 较 小 。 其 次 ， 
各 条 件 下 JRT-PINC 的 返 真性 均 优 于 HO-PINC 的 ; 
同样 ， 即 便 是 在 po = 0 的 条 件 下 , JRT-PINC 中 属性 
的 返 真性 也 略 优 于 HO-PINC 中 属性 的 返 真 性 。 另 


ny 


外 , 不 同属 性 的 返 真 性 与 属性 截 距 参数 有 关 ， 但 影 
响 不 大 ， 基 本 趋势 是 : 属性 截 距 参 数 越 低 ( 即 掌握 属 
性 难度 越 大 ), 则 返 真性 越 好 。 

题目 参数 和 方差 协 方差 矩阵 参数 估计 返 真 性 
见 网 络 版 附录 $S2。 整 体 而 言 , IRT-PINC 的 题目 参数 
返 真 性 优 于 HO-PINC 的 ; JRT-PINC 中 各 题目 参数 
在 各 模拟 条 件 下 的 返 真性 均 表 现 较 好 ， 且 具有 较 一 
致 的 变化 趋势 : 样本 量 和 题目 数量 越 大 , 题目 参数 
的 返 真 性 越 好 ， 而 能 力 与 加 工 速度 的 相关 系数 影响 
较 小 。 


4 研究 2: 针对 作答 精度 和 时 间 的 
Ot 


基于 图 2(b) 和 2(c), 人 研究 2 通过 两 个 子 研 究 分 
别 构建 基于 能 力 的 联合 -交叉 负载 PINC (CJRT- 
PINC-0) 模 型 ( 子 研究 1) 和 基于 属性 的 联合 -交叉 负 
载 PINC (CJRT-PINC-m) 模 型 ( 子 研究 2). 


表 2 研究 1 中 概率 态 属性 参数 估计 的 返 真性 


RMSE 


Cor 


JRT-PINC HO-PINC 


JRT-PINC HO-PINC 


m, m» ms m, ms m, m» ms 


ms m m, m, m ms m m, m, m, ms 


—0.5 0.129 0.137 0.139 0.145 
—0.3 0.130 0.136 0.144 0.150 0.141 
0.132 0.137 0.144 0.148 0.141 
0.3 0.127 0.138 0.145 0.151 
0.5 0.128 0.139 0.144 0.147 0.142 0.159 0.151 


15 0 0.161 


0.143 


0.139 0.155 0.152 0.152 0.155 
0.158 0.148 0.153 0.158 
0.147 0.155 0.157 
0.154 0.148 0.159 0.158 
0.158 0.157 


0.158 0.899 0.901 0.896 0.888 0.875 0.888 0.890 0.886 0.877 0.861 
0.160 0.895 0.897 0.892 0.883 0.869 0.887 0.891 0.885 0.876 0.860 
0.157 0.894 0.896 0.890 0.881 0.867 0.886 0.891 0.885 0.876 0.861 
0.157 0.896 0.896 0.890 0.882 0.869 0.887 0.891 0.884 0.876 0.862 
0.161 0.898 0.899 0.894 0.886 0.874 0.884 0.889 0.883 0.874 0.860 


200 
—0.5 0.097 0.108 0.124 0.127 0.133 


30 0 


0.3 0.097 0.110 0.123 0.131 0.129 0.121 


0.5 0.096 0.110 0.124 0.127 0.126 0.120 0.127 0.143 0.144 


0.117 0.125 0.142 0.144 
—0.3 0.100 0.110 0.126 0.128 0.132 0.120 0.124 0.142 0.143 
0.103 0.110 0.128 0.130 0.134 0.122 0.126 0.142 0.148 
0.126 0.140 0.148 


0.151 0.946 0.940 0.928 0.912 0.890 0.940 0.933 0.920 0.904 0.881 
0.148 0.945 0.939 0.927 0.911 0.887 0.940 0.933 0.921 0.905 0.882 
0.153 0.944 0.938 0.925 0.909 0.885 0.939 0.933 0.920 0.903 0.879 
0.150 0.946 0.939 0.928 0.912 0.890 0.940 0.933 0.921 0.905 0.881 
0.148 0.947 0.940 0.929 0.915 0.894 0.940 0.933 0.921 0.905 0.881 


—0.5 0.111 0.131 0.130 0.139 0.139 0.132 0.140 0.141 
—0.3 0.113 0.132 0.134 0.140 0.142 0.132 0.140 0.141 


15 0 


0.3 0.114 0.136 0.134 0.142 0.146 0.132 0.143 0.140 0.145 


0.5 0.111 0.134 0.132 0.139 0.140 0.131 0.140 0.141 


500 


0.145 
0.143 
0.113 0.135 0.135 0.142 0.144 0.133 0.140 0.140 0.145 


0.144 


0.160 0.906 0.905 0.901 0.890 0.874 0.896 0.896 0.892 0.879 0.861 
0.163 0.902 0.901 0.896 0.885 0.867 0.896 0.895 0.892 0.879 0.861 
0.165 0.900 0.898 0.894 0.883 0.864 0.895 0.895 0.892 0.880 0.861 
0.165 0.900 0.899 0.895 0.884 0.866 0.894 0.894 0.891 0.879 0.860 
0.163 0.904 0.902 0.900 0.889 0.872 0.894 0.895 0.891 0.879 0.860 


—0.5 0.088 0.098 0.107 0.119 0.125 
—0.3 0.087 0.101 0.109 0.121 
30 0 0.090 0.100 0.109 0.121 


0.101 0.107 0.121 


0.128 0.101 0.108 0.121 


0.3 0.089 0.098 0.109 0.120 0.126 0.100 0.105 0.123 0.125 


0.5 0.089 0.095 0.107 0.116 0.123 


HE: JRT-PINC = 联合 -层级 概率 态 输入 ,噪音 连接 模型 ; HO-PINC = 高 阶 概率 态 输入 ,噪音 连接 模型 ; 9 = 能 力 ; + = 加 工 速度 ; N = 


样本 量 ; T= 题目 数量 ; p = 能 力 与 加 工 速度 的 相关 系数 。 


0.126 
0.128 0.100 0.109 0.122 0.126 
0.125 


0.100 0.105 0.122 0.125 


0.145 0.949 0.943 0.932 0.916 0.895 0.945 0.938 0.926 0.908 0.884 
0.145 0.947 0.941 0.929 0.913 0.890 0.944 0.938 0.925 0.908 0.884 
0.144 0.947 0.941 0.929 0.912 0.889 0.945 0.939 0.926 0.910 0.886 
0.145 0.948 0.942 0.930 0.915 0.892 0.945 0.939 0.926 0.910 0.886 
0.141 0.949 0.944 0.933 0.919 0.898 0.945 0.939 0.927 0.910 0.886 
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4. 子 研 究 1: CJRT-PINC-0 
41.1 ”模型 构建 

基于 图 2(b) CJRT-PINC-0 假设 被 试 的 能 力 变 
化 会 影响 其 作答 该 题目 的 耗 时 ， 即 释放 了 JRT- 
PINC 中 能 力 和 RT 之 间 的 条 件 独 立 性 假设 (图 1 P b) 
CJRT-PINC-0 同样 包含 两 层 模 型 ， 其 中 RA 的 测量 
模型 为 HO-PINC 模型 (公式 3), RT 的 测量 模型 为 : 

logT,, ~ N(E; -1p + 10,,07 ), (7) 

式 中 ，y 为 交叉 负载 ,表示 0,9] logT, BIS SIC A] : 
当中 > 0 时, 9, 越 大 则 RT BK, 反之 当 9, < 0M, 6, 
武大 则 RT 越 短 。 另 外 ,为 了 保证 模型 可 识别 性 ( 即 
0, 和 c, 的 相关 性 已 经 被 交叉 负载 解释 )， 该 模型 假 
设 和 c, 为 独立 分 布 : 


式 中 各 参数 含义 同上 。 仍 采用 贝 叶 斯 MCMC 算法 
对 CJRT-PINC-6 进行 参数 估计 ,各 竺 估计 参数 的 先 
验 分 布 见 网 络 版 附录 S1。 
4.1.2 ”模拟 研究 : 数据 生成 与 结果 

为 了 更 符合 实际 测试 的 复杂 情境 ,模拟 研究 设 
置 不 同 题目 中 0, 对 RT 的 影响 不 同 ( 詹 沛 达 , 2022): 
设 定 自 变 量 交叉 负载 (p) 满 足 方差 为 0.15 的 正 态 分 
布 ,其 中 低 影 响 效应 he = 0.1， 高 影响 效应 he = 0.5。 
固定 样本 量 N= 200, 题目 数量 7= 15, LRSM 
定 与 研究 1 相同 。 根 据 CJRTPINC-6 (公式 2~3 和 
公式 7~9) 生 成 所 有 被 试 在 所 有 题目 上 的 RA 和 RT。 

使 用 CIRT-PINC-0 fll HO-PINC 分 析 该 数据 。 结 
果 显 示 所 有 参数 的 PSRF 均 小 于 1.2, 表示 各 参数 均 


0, ~ N(0,03).t, ~ N(0,07). (8) 已 收敛 。 表 3 呈现 了 能 力 参数 和 加 工 速度 参数 的 估计 
239b, 题目 参数 之 间 关系 被 描述 为 : 返 真性 。 首 先 ，CJRT-PINC-0 的 返 真 性 均 优 于 HO- 
g Hy "1 PINC 的 , 表明 额外 引入 RT 所 包含 信息 有 助 于 提高 参 
Passes. e | > oy BIPER. Fu, AXLK, EHS 
E ze] 9m all 数 的 返 真性 有 所 提高 但 加 工 速度 参数 的 返 真 性 有 所 
oO - Dn Oo. 3 3 " E 
9, 多 pg ^ 下 降 ， 这 与 詹 沛 达 (2022) 的 发 现 一 致 。 表 4 呈现 了 
RI 研究 2 ( 子 研究 D 中 被 试 参数 估计 返 真 性 
分 析 模 型 A : 
Bias RMSE Cor Bias RMSE Cor 
0.1 —0.006 0.295 0.958 0.000 0.138 0.969 
CJRT-PINC-0 
0.5 —0.007 0.287 0.958 —0.001 0.194 0.971 
0.1 —0.007 0.481 0.871 = = = 
HO-PINC 
0.5 —0.008 0.503 0.864 一 一 一 


HE: CJRT-PINC-0 = 基于 能 力 的 联合 -交叉 负载 概率 态 输 入 ,噪音 连接 模型 ; HO-PINC = 高 阶 概率 态 输 入 ,噪音 连接 模型 ; 0 = 能 力 ; 
T= 加 工 速度 ; he = 交叉 负载 均值 ; Bias = 所 有 被 试 的 平均 偏差 ; RMSE = 所 有 被 试 的 平均 均 方 根 误差 ; Cor = 估计 值 与 真 值 之 间 的 


相关 系数 . 
表 4 研究 2 ( 子 研究 1) 概 率 态 属性 参数 估计 返 真 性 
分 析 模 型 m 指标 mi m ms ma ms 

Bias —0.005 —0.005 —0.001 —0.014 -0.012 

0.1 RMSE 0.097 0.113 0.101 0.119 0.102 

CR Cor 0.953 0.952 0.953 0.947 0.948 
Bias —0.004 —0.030 —0.006 —0.009 —0.002 

0.5 RMSE 0.097 0.118 0.107 0.111 0.098 

Cor 0.952 0.949 0.952 0.950 0.949 

Bias 0.041 0.004 —0.005 —0.037 —0.052 

0.1 RMSE 0.153 0.148 0.155 0.168 0.158 

HÖPNG Cor 0.885 0.887 0.882 0.870 0.857 
Bias 0.041 —0.003 —0.009 —0.040 —0.051 

0.5 RMSE 0.154 0.160 0.154 0.164 0.159 

Cor 0.880 0.879 0.878 0.866 0.849 


HE: CJRT-PINC-0 = 基于 能 力 的 联合 -交叉 负载 概率 态 输入 


， 噪 音 连 接 模 型 ; HO-PINC = 高 阶 概率 态 输入 ,噪音 连接 模型 ; he = 交 
LARI; m = 概率 态 属性 ; Bias = 所 有 被 试 的 平均 偏差 ; RMSE = 所 有 被 试 的 平均 均 方 根 误差 ; Cor = 估计 值 与 真 值 之 间 的 相 
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属性 参数 估计 返 真 性 。 首 先 ，CJRT-PINC-6 在 不 同 
模拟 条 件 下 属性 参数 的 返 真 性 均 较 好 ， 且 均 优 于 
HO-PINC 的 ,题目 参 数 和 方差 协 方差 矩阵 参数 的 返 
真性 见 网 络 版 附录 表 S3.1 和 表 S3.2。 整体 而 言 , 不 
同 模拟 条 件 下 CIRT-PINC-0 的 参数 返 真 性 均 较 好 ， 
且 优 于 不 考虑 RT 的 HO-PINC 的 。 
4.0 FR 2: CJRT-PINC-m 
4.2.1 ”模型 建构 

基于 图 2(c)，CJRT-PINC-m 假设 被 试 对 属性 的 
掌握 情况 会 影响 其 完成 该 题目 的 耗 时 ， 被 试 对 题目 
所 考查 的 所 有 属性 的 掌握 概率 越 高 则 对 RT 的 影响 
越 大 ， 即 该 模型 释放 了 JRT-PINC 中 属性 和 RT 之 间 
的 条 件 独立 性 假设 (图 1 中 c), CJRT-PINC-m 同样 
包含 两 层 模 型 ， 其 中 RA 的 测量 模型 为 HO-PINC f 
型 (公式 3), RT 的 测量 模型 为 : 


K 
logT;; ZI (10) 
k=l 


式 中 ，; 为 交叉 负载 ,表示 理想 作答 概率 对 logT,; 
的 影响 大 小 : 当 x;>0 时, 理想 作答 概率 越 大 则 RT 
越 长 ， 当 x ;<0 时 ,理想 作 管 概率 越 大 则 RT BE 
能 力 与 加 工 速度 仍 为 独立 分 布 ， 见 公式 8。 各 题目 


参数 也 满足 多 元 正 态 分 布 : 
Si ep B. 
ES g 
si ix MVN 5 » Litem » Litem = : : , (1 1) 
5 Hr ME 
K; m me 


式 中 各 参数 含义 同上 。 仍 采用 贝 叶 斯 MCMC 算法 
对 CJRT-PINC-m 进行 参数 估计 ,各 竺 估计 参数 的 
先 验 分 布 见 网 络 版 附录 S1。 
4.2.2 ”模拟 研究 : 数据 生成 与 结果 

该 部 分 具体 内 容 见 网 络 版 附录 S3.2。 整 体 而 言 ， 
CJRT-PINC-m 在 不 同 模拟 条 件 下 模型 参数 的 返 真 
性 良好 , 均 优 于 不 考虑 RT 的 HO-PINC 的 。 


s ”研究 3: 新 模型 之 间 的 交叉 比较 


5.1 数据 生成 与 分 析 

詹 沛 达 (2022) 指 出 在 确定 态 联合 CDM 中 “忽略 
交叉 负载 所 导致 的 负面 结果 比 宛 余 考 虑 交叉 负载 
所 导致 的 更 严重 。” 为 验证 该 结论 是 否 适用 于 联合 
概率 态 CDM, 研究 3 交叉 比较 了 JRT-PINC 和 两 个 
CJRT-PINC 的 表现 。 当 IRT-PINC 作为 数据 生成 模 
型 时 , 设 定 能 力 与 加 工 速度 的 相关 系数 (pei) 为 0.5; 
当 CJRT-PINC (CJRT-PINC-0 和 CJRT-PINC-m) 作 为 


数据 生成 模型 时 , 设 定 交 又 负载 (9; 和 ke) 服从 均值 
为 0.5、 方 差 为 0.15 的 正 态 分 布 。 除 此 之 外 ,固定 
样本 量 N= 200, 题目 数量 1= 15， 其 余 参 数 设 定 与 
上 文 模拟 研究 相同 。 每 种 模拟 条 件 下 各 生成 30 组 
数据 ,评价 指标 除 RMSE, Bias 和 Cor 外 , 还 包括 模 
型 -数据 相对 拟 合 指标 DIC 统计 量 和 模型 -数据 绝 
对 拟 合 指 标 后 验 预 测 模型 检验 (posterior predictive 
model checking, PPMC)。 其 中 , RA 的 PPMC 采用 

i e X, — Prob(X,, =1) i 
DOG) = Y Yat =1)(1— Prob(X,, = =| 
XP X u ARA, Prob(X,, =1) Jj HO-PINC 模型 ( 公 
A 3); 


RT 的 PPMC 采用 D(logT,)- 
N I fE 2 
yy G 2 , rp logTu 为 对 数 RT。 
(oy 


n=l i=l D 
后 验 预 测 概率 (posterior predictive probability, ppp) 
接近 0.5 表明 模型 与 数据 拟 合 ， 当 ppp 值 接近 0 或 1 
时 (如 , ppp < 0.025 或 ppp > 0.975) 表 明 模 型 与 数据 
不 拟 合 (Bolsinova & Tijmstra, 2018). 
5.2 ”结果 

结果 显示 所 有 参数 的 PSRF 均 小 于 1.2， 表示 各 
参数 均 已 收敛 。 K 5 呈现 了 各 模型 在 生成 数据 上 的 
拟 合 指标 。 根 据 ppp 值 ， 各 模型 均 拟 合 生成 数据 ， 即 
联合 模型 中 结构 模型 的 有 偏 设 定 不 太 影响 测量 模 
型 对 数据 的 绝对 拟 合 。 根 据 DIC 值 发 现 ， 当 JRT- 
PINC 作为 数据 生成 模型 时 ,其 DIC 与 两 个 CIRT- 
PINC 的 DIC 均 接近 ; 而 当 任 一 CIRT-PINC 作为 数 
据 生 成 模型 时 ，CJRT-PINC 对 数据 的 拟 合 明显 优 于 
JRT-PINC 的 ,这 表明 引入 交叉 负载 的 联合 模型 的 
适用 范围 更 广 。 另 外 ,， 当 CIRT-PINC-0 作为 数据 生 
成 模型 时 ， 两 个 CJRT-PINC 的 DIC 45 JRT-PINC 的 
DIC 之 间 的 差 值 在 1,000 £A; 而 当 CIRT-PINC-m 
作为 数据 生成 模型 时 ， 两 个 CJRT-PINC 的 DIC 与 
JRT-PINC 的 DIC 之 间 的 差 值 仅 为 100 左右 。 该 结 
果 表 明 CJRT-PINC-9 的 普 适 性 相对 更 高 : 当 其 他 两 
个 模型 为 数据 生成 模型 时 ， 它 能 够 提供 与 数据 生成 
模型 几乎 一 致 的 拟 合 指标 ; 而 当 它 作为 数据 生成 模 
型 时 ， 其 他 两 个 模型 对 数据 的 拟 合 则 相对 要 差 一 
些 。 另 外 ,各 模型 参数 的 返 真 性 也 呈现 类 似 的 趋势 
( 见 网 络 版 附录 表 S4.1~S4.4)。 总 之 , 研究 3 结果 表 
明 (D) 忽 略 可 能 存在 的 交叉 负载 所 导致 的 负面 结 
比 宛 余 考 虑 存在 交叉 负载 所 导致 的 更 严重 ， 即 
CJRT-PINC 对 测验 情境 的 兼容 性 优 于 JRT-PINC; 
H(2) CJRT-PINC-0 的 普 适 性 相对 于 CJRT-PINC-m 


更 高 。 
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RS 研究 3 中 模型 -数据 相对 拟 合 情 况 
数据 生成 模型 数据 分 析 模 型 DIC ppp.RA ppp.RT 
JRT-PINC 7935.189 0.479 0.790 
JRT-PINC CJRT-PINC-0 7935.783 0.499 0.792 
CJRT-PINC-m 7947.637 0.502 0.792 
JRT-PINC 8979.986 0.505 0.706 
CJRT-PINC-0 CJRT-PINC-0 7978.639 0.517 0.790 
CJRT-PINC-m 8087.316 0.433 0.784 
JRT-PINC 8046.958 0.485 0.781 
CJRT-PINC-m CJRT-PINC-0 7952.253 0.503 0.782 
CJRT-PINC-m 7952.049 0.506 0.791 


6 ”实证 数据 分 析 

数据 描述 

Ak LA PISA 2012 年 计算 机 化 数学 测验 数据 为 
例 进 一 步 展 现 新 模型 在 实践 中 的 可 应 用 性 。 测 验 数 
据 共 包含 32 个 国家 , 研究 从 中 选取 了 4 个 国家 /地 
区 : 中 国 上 海 (QCN)、 美 国 (USA)、 新 加 坡 (SGP) 和 
斯 洛 伐 克 共和 国 (SVK)。 初 始 样本 量 为 1754 A, 清 
理 后 数据 包含 N= 1597 名 被 试 。PISA 2012 的 数学 
测验 框架 (OECD, 2013) 已 公开 的 10 道 题目 共 包 含 7 
个 属性 (Zhan, Jiao, & Liao, 2018)， 分 别 是 : (KJ) 变 


6.1 


iE: DIC = deviance information criterion; ppp.RA = RA 的 后 验 预 测 概率 ; ppp.RT = RT 的 后 验 预 测 概率 。 


合作 答 与 时 间 DINA (joint responses and times DINA, 
JRT-DINA; Zhan, Jiao, & Liao, 2018)。 采 用 DIC 统 
计量 作为 模型 -数据 相对 拟 合 指 标 , ppp 作为 模型 - 
数据 绝对 拟 合 指标 。 
63 ”结果 

K 6 呈现 了 各 模型 在 测验 数据 上 的 拟 合 指标 。 
需要 注意 的 是 , 由 于 CJRT-PINC-m PHH 42.75% 
的 待 估计 参数 (包括 maus si, gi Ki, Kom Mus Eis Ops, Ope. 
osx) 未 达到 收敛 标准 (PSRF < 1.2)， 因 此 该 模型 与 数 
据 的 拟 合 结果 仅 供 参考 ， 后 续 不 在 文中 进行 探讨 。 
由 结果 可 知 ， 所 有 模型 的 ppp 值 均 在 0.5 左右 , 表 


化 和 关系 、(K;) 数 量 、(K;) 空 间 与 图 形 、(Ks) 不 确定 
性 和 数据 、(K;s) 与 职业 相关 的 背景 、(K6e) 与 社会 相 
关 的 背景 以 及 (K7) 与 科学 相关 的 背景 。 测验 Q 矩阵 
见 网 络 版 附录 表 S5.1。 男 外 ，CM015Q02D , 
CM015Q03D 和 CM020Q01 三 道 题目 原 为 多 级 评分 
题目 (0，1，2),， 由 于 本 研究 的 模型 仅 针对 二 级 评分 
数据 (0，1)， 因 此 对 这 三 题 的 作答 结果 采用 Zhan, 
Jiao 和 Liao (2018) 的 编码 方式 : 0 和 1 编码 为 0, 2 
编码 为 1。 
6.2 分析 与 评价 指标 

分 别 使 用 JRT-PINC, CJRT-PINC-0, CJRT- 
PINC-m 和 另外 两 个 已 有 模型 分 析 该 数据 一 一 包括 
仅 可 分 析 RA 的 HO-PINC 和 基于 确定 态 属性 的 联 


示 各 模型 均 拟 合 测验 数据 。 根据 DIC 指标 ， 基 于 概 
率 态 属 性 的 三 个 联合 模型 对 数据 的 拟 合 均 优 于 基 
于 确定 态 属性 的 JRT-DINA 的 。 同 时 ， 基 于 联合 - 
交叉 负载 建 模 框架 的 两 个 CJRT-PINC 对 数据 的 拟 
合 优 于 基于 联合 -层级 建 模 框架 的 JRT-PINC。 下 文 
将 主要 基于 对 数据 拟 合 相对 最 好 的 CJRT-PINC-0 
的 分 析 结 果 进 行 前 述 。 

网 络 版 附录 中 图 SS.1 和 图 S5.2 分 别 呈 现 了 各 
模型 加 工 速 度 参数 和 能 力 参 数 估计 值 的 散 点 图 。 结 
KLAN, 各 模型 估计 的 能 力 参数 具有 较 高 的 一 致 性 
(各 模型 的 估计 值 间 相关 系数 最 小 值 为 0.853)， 同 
样 估计 的 加 工 速度 参数 也 具有 较 高 的 一 致 性 (各 模 
型 的 估计 值 间 相关 系数 最 小 值 为 0.907); 这 种 高 相 


Ro 实证 数据 中 模型 -数据 拟 合 指标 
拟 合 指标 数据 分 析 模 型 
HO-PINC JRT-DINA JRT-PINC CJRT-PINC-0 CJRT-PINC-m 
DIC 17410 50090 41772 41186 40746 
ppp.RA 0.728 0.611 0.571 0.638 0.404 
ppp.RT — 0.594 0.596 0.604 0.603 


ik: DIC = deviance information criterion; ppp.RA = RA 的 后 验 预测 概率 ; ppp.RT = RT 的 后 验 预测 概率 ; HO-PINC 分 析 的 数据 量 少 于 


另外 4 个 联合 模型 ， 所 以 其 DIC 值 不 具有 可 比 性 。 
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关 说 明 各 模型 所 定义 的 能 力 参 数 和 加 工 速度 参数 
是 大 致 相同 的 , 测量 的 是 相同 的 心理 特质 。 另 外 ， 
各 模型 的 估计 值 有 一 定 差异 性 ,尤其 是 能 力 参 数 
的 估计 值 ， 这 点 从 模拟 研究 中 能 力 参 数 的 估计 返 
真性 结果 也 可 以 反映 出 来 ( 即 两 种 联合 建 模 法 的 主 
要 差异 体现 在 能 力 参 数 的 估计 精度 上 )。 以 CJRT- 
PINC-0 为 参照 基准 ， 对 加 工 速度 而 言 ， 可 发 现 
(DJRT-DINA 和 JRT-PINC 均 略 低估 了 高 速度 区 间 
(6, >1) 内 被 试 的 加 工 速度 水 平 ; (2) 两 个 CIRT- 


明 这 两 个 题目 上 能 力 越 高 的 被 试 作答 题目 的 时 间 
越 短 ， 其 他 题目 则 相反 (@， > 0)。 该 结果 整体 与 
JRT-PINC 的 基本 一 致 ,JRTPINC 中 能 力 与 加 工 速 
度 呈 负 相 关 (pe: = 一 0.531), 表示 能 力 越 高 的 被 试 加 
工 速度 越 慢 (作答 题目 的 时 间 越 长 )。 能 力 与 加 工 速 
度 负 相关 结果 可 能 是 因为 PISA 属于 低 风 险 / 低 动 机 
的 测验 ， 其 结果 对 于 学 生 而 言 影 响 较 小 因此 学 生 的 
作答 动机 较 低 ， 这 一 结论 与 已 有 研究 (Zhan, Jiao, & 
Liao, 2018) 的 结果 一 致 。 此 外 CJRT-PINC-0 中 各 题 


PINC 的 估计 结果 有 较 高 的 一 致 性 ; 对 能 力 而 言 ， 
可 发 现 (1)HO-PINC 会 高 估 低 能 力 区 间 (6, < -0.5) 
内 的 被 试 ; (2)JRT-DINA 会 低估 高 能 力 区 间 ( 0, >1) 
内 的 被 试 ; (3) 两 个 CJRT-PINC 的 估计 结果 有 较 高 
的 一 致 性 ; (4) 对 于 少 部 分 在 低能 力 区 (6, < -1) 间 内 


目的 交叉 负载 估计 值 之 间 并 不 一 致 ， 表 明 各 题目 的 
RT 为 能 力 提供 的 辅助 信息 量具 有 差异 性 , AE 
JRT-PINC 中 的 一 个 笼统 相关 系数 可 能 无 法 较 好 地 
处 理 该 情况 。 另 外 , 我 们 计算 了 交叉 负载 和 其 他 3 
个 题目 参数 之 间 的 相关 系数 ,发现 交叉 负载 与 失误 


的 被 试 ， 基 于 联合 -层级 建 模 的 两 个 模型 与 基于 联合 
-交叉 负载 建 模 的 两 个 模型 之 间 的 估计 值 差 异 较 大 。 

3&7 LMT CJRTPINC-6 在 测验 数据 中 交叉 负 
E p; 的 后 验 均 值 和 置信 区 间 ， 以 及 其 他 题目 参数 的 
后 验 均值 。 结 果 显 示 交 叉 负 载 9; 后 验 均值 的 估计 范 
围 在 -0.027 到 0.338 ŻW, 所 有 题目 上 的 交叉 负载 
95% 置 信和 区间 都 不 包含 零 。 题 目 1 和 9 的 9;<0, 表 


参数 的 相关 系数 最 高 (0.923)， 与 时 间 强 度 参数 的 相 
关系 数 次 之 (0.622)， 与 猜测 参数 的 相关 系数 最 低 
(-0.599); 结果 表明 题目 的 失误 参数 越 高 , RT 为 能 
力 提供 的 辅助 信息 越 高 ; 当然 , 这 种 关系 只 是 该 数 
据 特 有 的 , 结论 的 推广 性 有 待 进一步 验证 。 

K 8 呈现 了 JRT-PINC, CJRT-PINC-0, JRT-DINA 
和 HO-PINC 对 个 体 的 分 析 结 果 。4 个 模型 的 诊断 结 


表 7 实证 数据 中 CJRT-PINC-0 的 交叉 负载 后 验 均 值 和 可 信 区 间 及 其 他 题目 参数 估计 值 


题目 参数 后 验 均 值 95% CI 时 间 强 度 参 数 失误 参数 猜测 参数 
CM015Q01 pi —0.027 [一 0.028, —0.025] 4.228 0.022 0.353 
CM015Q02D 2 0.338 [0.337, 0.340] 4.616 0.135 0.001 
CM015Q03D D3 0.321 (0.319, 0.323] 4.686 0.092 0.008 
CM020Q01 4 0.066 [0.065, 0.068] 4.812 0.054 0.044 
CM020Q02 Ds 0.050 [0.049, 0.052] 3.864 0.030 0.364 
CM020Q03 6 0.106 [0.104, 0.107] 4.314 0.039 0.137 
CM020Q04 7 —0.009 [-0.011, —0.008] 3.746 0.036 0.279 
CM038Q03T Ps 0.168 [0.166, 0.169] 4.226 0.075 0.439 
CM038Q05 9 0.193 [0.192, 0.195] 4.572 0.064 0.048 
CM038Q06 Pio 0.137 [0.135, 0.139] 4.462 0.054 0.021 
表 8 实证 数据 中 各 模型 对 个 体 属性 的 诊断 结果 示例 
被 试 诊断 模 型 Ki K: K; Ka Ks Kg K; 0 T 
HO-PINC 0.071 0.731 0.337 0.529 0.498 0.459 0.337 —0.193 B 
59 JRT-PINC 0.483 0.506 0.353 0.855 0.359 0.409 0.593 —0.213 0.401 
CJRT-PINC-0 0.656 0.623 0.273 0.553 0.493 0.746 0.493 —0.019 0.349 
JRT-DINA 0 1 1 1 0 1 0 —0.040 0.481 
HO-PINC 0.667 0.977 0.770 0.846 0.967 0.801 0.780 1.051 m 
JRT-PINC 0.711 0.907 0.587 0.968 0.870 0.555 0.790 1.058 0.325 
233 CJRT-PINC-0 0.850 0.928 0.558 0.681 0.901 0.867 0.739 0.975 0.283 
JRT-DINA 1 1 1 1 1 1 0 0.784 0.478 
HO-PINC 0.667 0.976 0.771 0.844 0.965 0.798 0.778 1.059 = 
977 JRT-PINC 0.709 0.906 0.588 0.968 0.871 0.556 0.794 1.063 0.327 
CJRT-PINC-0 0.841 0.918 0.537 0.674 0.888 0.862 0.725 0.914 0.285 
JRT-DINA 1 1 1 1 1 1 1 1.162 0.664 
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构 具 有 一 定 的 一 致 性 , 但 同时 存在 差异 。 首 先 ， 当 
概率 态 属性 估计 结果 大 于 0.5 时 , 确定 态 属性 的 诊 
断 结 果 也 多 为 “1”。 其 次 , 基于 概率 态 属性 的 两 个 模 
型 比 基 于 确定 态 属 性 的 JRT-DINA 能 更 精细 地 反馈 
出 学 生 对 属性 的 掌握 情况 及 个 体 差异 性 。 以 被 试 59 
为 例 ，JRT-DINA 诊断 被 试 的 属性 2 为 掌握 “1”, 但 
此 时 概率 态 属 性 结果 显示 被 试 对 属性 2 的 掌握 概率 
仅 略 高 于 0.5, 距离 熟练 /完全 掌握 还 有 一 定 距离 ， 
还 需要 进一步 干预 。 再 次 , 与 HO-PINC 相 比 ,三 个 
考虑 RT 信息 的 联合 模型 均 可 以 提供 有 关 加 工 速度 
的 估计 值 ， 丰富 了 反馈 报告 的 内 容 。 


7 总结、 讨论 与 展望 


7.1 总 结 与 讨论 

随 着 实践 者 对 精细 化 诊断 需求 的 不 断 增加 ， 传 
统 基于 确定 态 属 性 的 CDM 已 显得 力不从心 ,概率 
态 CDM 应 运 而 生 。 但 是 已 有 的 概率 态 CDM 仍然 
延续 传统 的 建 模 方式 , 无 法 实现 同时 分 析 多 模 态 数 
据 (比如 , RA I RT). 对 此 ， 本 文 基于 两 种 可 联合 分 
析 RA 和 RT 的 认 知 诊断 建 模 框 架 提出 了 三 个 联合 
概率 态 CDM: JRTPINC 、CJRTPINC-6 和 CJRT- 
PINC-m。 其 中 , JRT-PINC 是 基于 联合 -层级 认 知 诊 
断 建 模 框 架构 建 的, 但 该 模型 需要 满足 较 多 的 条 件 
独立 性 假设 以 保证 模型 的 可 识别 性 ; 另外 两 个 
CJRT-PINC 是 基于 联合 -交叉 负载 认 知 诊断 建 模 框 
架构 建 的 ,它们 释放 了 JRTPINC 中 部 分 条 件 独 立 
性 假设 , 增加 了 适用 范围 。 三 个 新 模型 均 具 有 概率 
A CDM 的 优点 , 可 以 实现 对 属性 掌握 状态 的 精细 
化 诊断 ， 有 益 于 区 分 被 试 间 的 个 体 差 异 ,为 因 材 施 
教 和 精准 教学 提供 数据 支持 ; 同时， 作为 一 种 联合 
模型 ， 三 者 均 可 利用 RT 中 所 包含 的 信息 提高 模型 


1 个 联合 确定 态 模型 (JRT-DINA) 和 1 个 仅 分 析 RA 
的 概率 态 模型 (HO-PINC)。 研究 结果 表明 (1) 相 比 于 
确定 态 属 性 ， 概 率 态 属性 可 以 更 精细 化 地 反馈 被 试 
对 属性 的 掌握 情况 ; (2) 基 于 联合 -交叉 负载 认 知 诊 
断 建 模 框架 构建 的 CJRTPINC 比 基 于 联合 -层级 认 
知 诊断 建 模 框 架构 建 的 JRTPINC 更 拟 合 该 数据 ; 
(3) 额 外 引入 RT, 可 丰富 诊断 反馈 内 容 ， 提 供 有 关 
被 试 加 工 速度 的 测量 。 

综 上 ,新 模型 的 提出 丰富 了 概率 态 CDM 的 适 
用 范围 ,为 后 续 进一步 在 技术 增强 型 测评 系统 中 联 
合 分 析 多 模 态 数据 进行 精细 化 全 面 化 诊断 提供 了 
方法 学 引导 。 当 然 ,， 本 人 研究 仅 在 有 限 的 范围 内 探讨 
并 展现 了 三 个 联合 概率 态 CDM 的 表现 。 由 于 任何 
模型 都 有 其 适用 的 测验 情境 ， 本 研究 并 没有 否定 其 
他 对 比 模型 ， 更 多 地 是 进一步 丰富 现 有 的 认 知 诊断 
模型 可 选项 。 在 实践 中 ,可 使 用 数据 驱动 方法 , 依 
据 模 型 -数据 相对 拟 合 指标 来 选择 合适 的 模型 。 
72 局限 与 展望 

因 能 力 、 精 力 和 篇 幅 所 限 ， 本 文 还 存在 一 些 局 
限 性 有 待 后 续 研 究 探讨 。 首 先 ， 本文 仅 以 一 些 相对 
常用 但 简约 的 模型 为 例 来 说 明 建 模 思 路 。 比 如 ， 针 
对 RA 仅 选 用 了 满足 连接 缩合 规则 的 HO-PINC 模 
型 ; 针对 RT 仅 选 用 了 假设 RT 为 对 数 正 态 分 布 的 
LRTM。 这 导致 文中 所 提 模 型 仅 能 处 理 有 限 的 测验 
情境 (如 ， 二 级 评分 RA、 加 工 速度 恒定 、 被 试 群体 
具有 同 质 性 、 不 涉及 协 变量 信息 )。 当 然 ， 鉴于 新 建 
模 框架 的 灵活 性 ， 后 续 研 究 可 尝试 替换 不 同 测量 模 
型 以 满足 不 同 的 测量 需求 。 其 次 ,本 研究 遵循 联合 
-层级 建 模 框架 和 联合 -交叉 负载 建 模 框架 ， 假设 
变量 之 间 为 线性 关系 (如 ,JRTPINC 中 能 力 和 加 工 
速度 之 间 ，CJRT-PINC 中 能 力 或 属性 和 RT 之 间 )。 


参数 估计 精度 ， 并 反馈 个 体 加 工 速度 ,丰富 诊断 反 
馈 信 息 。 

本 文通 过 三 个 模拟 研究 探讨 了 新 模型 在 不 同 
模拟 条 件 下 的 心理 计量 学 性 能 。 模 拟 研 究 结果 主 
要 表明 : (1) 三 个 新 模型 的 参数 估计 返 真 性 均 较 好 ; 
(2) 额 外 引入 RT, 不 仅 有 助 于 提高 模型 参数 估计 精度 
还 可 提供 有 关 个 体 加 工 速度 的 测量 ; (3) CJRT-PINC-0 
比 CJRT-PINC-m 更 充分 地 利用 RT 所 包含 信息 去 提 
高 核心 建构 (能 力 和 属性 ) 的 参数 估计 精度 ; (4) 忽 略 
交叉 负载 所 导致 的 负面 结果 比 宛 余 考 虑 交叉 负载 
所 导致 的 更 严重 。 然 后 ， 本 文 以 一 则 实证 数据 为 例 
对 比 探究 了 5 个 CDM 的 表现 , 包括 3 个 联合 概率 
态 模 型 (JRT-PINC、CJRT-PINC-06、CJRT-PINC-m)、 


尽管 本 研究 模型 -数据 拟 合 指标 表明 包含 该 线性 假 
设 的 模型 可 以 拟 合 数据 ， 后 续 研 究 仍 可 从 更 严谨 的 
角度 检验 该 线性 假设 是 否 成 立 ; 比如 ， 可 以 通过 验 
证 能 力 估计 值 (60) 与 速度 估计 值 解释 后 RT RÉ 
(logT; -( -如 )) 之 间 是 否 满足 线性 关系 来 验证 该 
假设 (Bolsinova & Tijmstra, 2018)。 然 后 ， 模 拟 研 究 
中 操纵 变量 的 数量 及 变量 所 包含 的 水 平 数 量 均 有 
限 ， 尚 未 充分 反映 新 模型 的 心理 计量 学 性 能 。 后 续 
研究 可 引入 其 他 操纵 变量 (如 , 属性 之 间 的 相关 性 、 
Q 和 矩阵 的 错误 设 定 、 不 同 的 属性 截 距 和 区 分 度 参 
数 、 数 据 的 缺失 值 比例 及 异常 作答 ) 从 不 同 视角 进 
一 步 探讨 新 模型 的 心理 计量 学 性 能 。 

《深化 新 时 代 教 育 评价 改革 总 体 方案 》 中 提出 
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“改进 结果 评价 ,强化 过 程 评 价 ， 探 索 增 值 评 价 ， 健 
全 综合 评价 ”; 在 “改进 结果 评价 ”的 基础 上 ， 未 来 
可 面向 过 程 评价 、 增 值 评价 和 综合 评价 ， 进一步 尝 
试 拓展 本 文 提出 的 模型 ， 比 如 : 

(1)“ 强 化 过 程 评价 ”取向 。 概 率 态 属性 的 一 个 
有 价值 的 实践 用 途 是 描述 被 试 对 属性 的 掌握 状况 
的 精细 化 变化 (Zhan, 2021)。 本 研究 暂 局 限于 横断 测 
Jy, 未 关注 被 试 潜在 特质 的 动态 发 展 变化 。 未 来 可 
尝试 结合 已 有 的 纵向 认 知 诊断 建 模 ， 进 一 步 探索 概 
率 态 属性 和 加 工 速度 的 动态 变化 。 

(2) “探索 增值 评价 ”取向 。CDM 主要 关注 对 个 
体 水 平 特质 的 测量 , 暂 未 关注 对 教师 和 学 校 层面 的 
投入 的 评价 。 结 合 “ 过 程 评价 ”取向 的 未 来 成 果 ， 精 
细 化 诊断 适宜 于 刻画 学 生 的 发 展 变化 , 不 仅 有 助 于 
肯定 学 生 的 努力 付出 ,也 有 助 于 准确 反映 教师 和 学 
校 的 投入 ,进而 有 利于 实现 基于 学 生 学 习 进 步 来 评 
价 教师 教学 绩效 的 主张 ( 张 莉 娜 等 , 2022)。 

(3)“ 健 全 综合 评价 ”取向 。 本 研究 对 多 模 态 数 
据 的 利用 尚 不 够 充分 局 限于 RA 和 RT 两 种 数据 ， 
进而 仅 能 提供 与 认 知 能 力 和 加 工 速度 有 关 的 诊断 
反馈 。 随 着 信息 技术 及 测量 方式 的 发 展 ,技术 增强 
型 测评 已 经 可 以 获取 学 生 问 题解 决 过 程 中 的 多 模 
态 数据 (如 ， 眼 动 数据 、 鼠 标点 击 次 数 、 行 动 序列 ， 
以 及 面部 表情 、 动 作 和 心率 等 变化 数据 )， 后 续 可 以 
将 更 多 模 态 的 数据 纳入 分 析 中 (如 ，Zhan et al, 
2022)， 以 丰富 数据 分 析 结 果 所 包含 的 信息 ， 为 全 
面 化、 多 元 化 的 综合 评价 提供 方法 学 支持 。 
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Abstract 

Compared with the conventional CDM with deterministic or binary attributes, the CDM with probabilistic 
attributes (probabilistic-CDM) can achieve a more refined diagnosis of attribute mastery status, which helps 
distinguish individual differences between students and provides more reference information for teacher 
feedback. However, existing probabilistic CDMs can only analyze a single modal of data—item response accuracy 
(RA), ignoring other modals of data such as item response times (RTs). RTs reflect the cognitive processing 
speed of the participant. With the popularity of computerized testing, recording RT data has become routine. 
However, how to use RTs in probabilistic CDM to further improve parameter estimation accuracy and enrich the 
diagnostic feedback information is still an unsolved methodological problem. To this end, the current study 
proposes three joint probabilistic CDMs based on the joint-hierarchical and joint-cross-loading cognitive 
diagnostic modeling approaches. 

First, based on joint-hierarchical modeling, the joint-hierarchical probabilistic CDM (JRT-PINC) was 
proposed in Study 1, which achieved the purpose of using RT to improve diagnostic accuracy. A simulation 
study was conducted to investigate the psychometric performance of the JRT-PINC under various simulated 
testing conditions, in which three independent variables, including sample size, test length, and the correlation 
between person parameters, were manipulated. Second, two joint-cross-loading probabilistic CDMs (CJRT- 
PINC-0 and CJRT-PINC-m) were proposed based on the joint-cross-loading modeling. In contrast to the 
JRT-PINC model, two CJRT-PINC models directly used RTs to provide information for latent abilities or 
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attributes by introducing item-level cross-loading parameters. Two CJRT-PINC models released some conditional 
independence assumptions in JRT-PINC, increasing their application scope. Two simulation studies were conducted 
to explore their performance under different simulated conditions with different degrees of cross-loading. Third, 
Study 3 aims to explore the relative merits of the JRT-PINC and two CJRT-PINC models, that is, the necessity of 
considering cross-loading in the joint analysis of RA and RT. Finally, an empirical example was conducted to 
illustrate the practical applicability of the proposed models and to compare them with existing CDMs (e.g., 
CDMs with deterministic attributes). 

The simulation results mainly indicated that: (1) all three proposed models can be well recovered under 
different simulated conditions; (2) CJRT-PINC-0 makes fuller use of the information contained in RTs and thus 
improves the accuracy of the parameter estimation of the core constructs (e.g., latent ability and attributes) than 
CJRT-PINC-m; and (3) the adverse effects of ignoring the possible cross-loadings are more severe than redundantly 
considering them. The results of the empirical example indicated that: (1) probabilistic attributes provide more 
refined feedback on participants! mastery of attributes than deterministic attributes; and (2) two CJRT-PINC 
models fit this data better than the JRT-PINC model. 

Overall, this paper introduced RTs in probabilistic CDM for the first time and proposed three joint 
probabilistic CDMs based on two joint cognitive diagnostic modeling approaches. This study enriched the scope 
of application of probabilistic CDMS and provided methodological guidance for further refined and comprehensive 
diagnosis by jointly analyzing multi-modal data in technology-enhanced assessment systems. 

Keywords cognitive diagnosis, probabilistic attribute, item response time, joint modeling framework, cross loading 
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附录 : 

S1 参数 估计 中 的 先 验 分 布 及 鲁 棒 性 分 析 

S1.1 先 验 分 布 


S1.1.1 JRT-PINC 
首先 ,根据 条 件 独 立 性 假设 , 2 和 logT, 满足 : 
X,, ~ Bernoulli(P(X,, 21) , logT,; ~ N(£ —7,,02). 
其 次 , 假设 被 试 参数 先 验 分 布 为 : 
0, 0 
evo 


为 了 使 模型 可 识别 , 约束 Joe 70,14 70, LAR og = 1 (Guo et al., 2020; Meng, Tao, & Chang, 2015; van der 
Linden, 2007; Zhan et al., 2018). H TAB REP ce = 1 ABE EL BEE Wishart 分 布 (inverse-Wishart)， 因 此 需 
要 对 Lperson 进行 Cholesky 分 解 (Zhan et al., 2018), Hil: 

其 中 , Apesoa 是 一 个 下 三 角 和 矩阵 ， 由 于 Cholesky 分 解 的 下 三 角 和 矩阵 的 对 角 元 是 大 于 零 的 ， 因此 > 0; Abus 
是 Aperson HÜZEAETE Eo Aperson 中 参数 的 超 先 验 (hyper prior) 设 定 为 : $ — N(0,1),y ~ Gamma’ (L1) o 

此 外 ， 高 阶 结构 参数 的 先 验 分 布设 定 为 : Nox ~ MO, 4), X ~N (0, 4)。 

最 后 , 假设 题目 参数 先 验 分 布 为 : 
logit(g;) | gr Hy 


logit(1—5;) -logti(g;) |=| s; |- MVN|| u- ,ZE 
Si 


item |? 


Ši He 
其 中 各 参数 的 超 先 验 设 定 为 : 

u ~ N(=2.197,2), p- ~ NT (43942), pe ~ NG,2), Ei, ~ InvWishart(R, 3) ， 
RP, R 是 一 个 三 元 单位 矩阵 (identity matrix), Hb, o? ~ Gamma (1,1) 。 
81.1.2. CJRT-PINC 
| F CJRT-PINC-0 中 潜在 能 力 和 速度 参数 为 独立 分 布 ,因此 假设 被 试 参数 先 验 分 布 为 : 
0, ~N(0,1), c, ~ N(Q,D. 


假设 题目 参数 先 验 分 布 为 : 


logit(g;) gr Hg- 

logit(1— s;) —logti(g;) S7 U- 
m o! |~ MVN “I Litem , 

Si Ši He 

fi Qi Ho 


1/0? ~ InvGamma(1,1) , 

式 中 各 参数 的 超 先 验 设 定 为 : 如 ~ N(0,0.25) , Eim ~ InvWishar(R,4) 。 其 余 参 数 先 验 分 布 与 S1.1.1 一 致 
CJRT-PINC-m 的 参数 先 验 分 布 与 CJRTPINC-6 的 一 致 ( 除 交 叉 负 载 符号 不 同 ， 上 .~ N(0,0.25) ,) 不 再 缆 述 。 
S1.2 ”和 鲁 棒 性 分 析 
S121 ” 低 信 息 量 先 验 分 布 

低 信 息 量 先 验 分 布 的 设 定 以 “无 知 ” 为 前 提 ， 并 以 大 方差 (如 , 5) 为 变异 范围 。 由 于 S1.1 中 部 分 参数 已 经 
采用 低 信 息 量 先 验 或 超 先 验 , 所 以 在 S1.1 的 基础 上 ， 部 分 参数 的 低 信息 量 先 验 分 布设 定 如 下 : 

H- ~N(0,5), u- ~N*(0,5), ug ~ N(0,5), My ~ N(0,5), Me ~N(0,5), 


其 他 参数 的 先 验 分 布 保持 不 变 。 
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S1.2.2 ”参数 估计 一 致 性 


选用 正文 模拟 研究 中 入 = 200, T= 15 条 件 下 生成 的 数据 作为 分 析 模 型 , Q 矩阵 见 正文 图 3; 该 模拟 条 


件 属 于 小 样本 短 测 验 情境 ， 理 论 上 参数 估计 结果 受到 先 验 分 布 的 
高 ， 参 数 估计 结果 受 先 验 分 布 中 所 含 信息 量 的 


Ei 
A 


响 更 大 。 随 样本 量 增 大 及 测验 长 度 提 
响 会 逐渐 降低 ( 即 鲁 棒 性 会 增加 )。 男 外 , 对 于 JRTPINC 


Ei 
WY 


模型 ， 设 定 潜在 能 力 与 加 工 速度 的 相关 系数 por = 0.5; 对 于 JRTPINC-6， 设 定 交 叉 负 载 (p) 满 足 均值 为 


0.5、 方 差 为 0.15 的 正 态 分 布 ， 对 于 ， 


JRTPINC-m， 设 定 交 叉 负 载 (c) 满 足 均值 为 0.5、 方 差 为 0.15 WES 


分 布 。 三 个 模型 的 其 他 参数 设 定 与 正文 研究 中 保持 一 致 ， 且 参数 估计 设 定 (如 ,马尔 可 夫 链 长 ) 与 各 模拟 研 


究 中 保持 一 致 。 


R S1.1 到 表 S1.3 呈现 了 3 个 模型 在 不 同 信息 量 先 验 分 布下 各 参数 的 返 真 性 。 整体 而 言 ， 基 于 研究 经 


E. 
蛙 


验 设 定 的 正常 信息 和 


一 致 性 ， 且 前 者 略 优 于 后 者 。 另 外 ， 
模型 。 


先 验 分 布下 的 参数 估计 返 真 性 与 低 信 ， 


息 量 先 验 分 布下 的 参数 估计 返 真性 具有 较 高 的 
三 个 模型 中 , CIRT-PINC-0 受 先 验 分 布 信息 量 的 影响 略 大 于 另外 两 个 


表 S1.1 不 同 信息 量 先 验 分 布下 被 试 参 数 的 估计 一 致 性 
模型 信息 量 

Bias RMSE Cor Bias RMSE Cor 
正常 —0.000 0.458 0.887 —0.000 0.120 0.902 
heron 低 —0.003 0.459 0.888 —0.002 0.122 0.901 
正常 —0.007 0.287 0.958 —0.001 0.194 0.971 
LE: 低 —0.008 0.385 0.891 0.000 0.192 0.890 
正常 —0.018 0.446 0.894 —0.005 0.136 0.985 
pa cA 低 —0.018 0.448 0.894 —0.006 0.140 0.941 

A S1.2 不 同 信息 量 先 验 分 布下 属性 的 估计 一 致 性 
模型 信息 量 指标 m ma ms ma ms 
Bias 0.006 0.008 0.008 —0.008 —0.022 
正常 RMSE 0.128 0.139 0.144 0.147 0.142 
Cor 0.898 0.899 0.894 0.886 0.874 
E Bias 0.007 0.007 0.004 —0.011 —0.016 
低 RMSE 0.123 0.137 0.133 0.136 0.134 
Cor 0.890 0.889 0.886 0.879 0.866 
Bias —0.004 —0.030 —0.006 —0.009 —0.002 
正常 RMSE 0.097 0.118 0.107 0.111 0.098 
Cor 0.952 0.949 0.952 0.950 0.949 
EDS Bias 0.011 —0.021 —0.002 —0.007 —0.012 
低 RMSE 0.122 0.136 0.12 0.125 0.112 
Cor 0.923 0.894 0.896 0.884 0.904 
Bias 0.012 —0.010 0.002 —0.009 —0.005 
正常 RMSE 0.127 0.124 0.132 0.135 0.135 
Cor 0.907 0.910 0.906 0.897 0.882 
esum Bias 0.009 —0.010 —0.001 —0.012 —0.010 
低 RMSE 0.127 0.124 0.132 0.135 0.136 
Cor 0.907 0.910 0.905 0.897 0.882 
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R S1.3 ”不同 信息 量 


先 验 分 布下 属性 的 估计 一 致 性 


有 g s E l/o? 交叉 负载 
模型 先 验 分 布 
Bias RMSE Bias RMSE Bias RMSE Bias RMSE Bias RMSE 
正常 0.007 0.055 0.023 0.060 | —0.002 0.037 0.011 0.028 - - 
JRT-PINC 
氏 0.014 0.056 0.035 0.067 | —0.003 0.038 0.012 0.028 - - 
正常 0.002 0.055 0.002 0.049 0.001 0.061 0.012 0.062  —0.029 0.030 
CJRT-PINC-0 
氏 0.033 0.108 0.037 0.114 0.002 0.061 —0.053 0.162 0.012 0.030 
正常 0.002 0.048 0.009 0.054 0.035 0.097 0.010 0.204  —0.102 0.028 
CJRT-PINC-m 
氏 0.010 0.049 0.018 0.058 0.020 0.097 | —0.069 0.198 0.010 0.028 
S2 研究 1 补充 结果 
R S2.1 研究 1 中 概率 态 属 性 参数 估计 的 平均 Bias 
JRT-PINC HO-PINC 
N I pox 
mi m» m3 m4 ms m, m» m3 m4 ms 
—-0.5 0.008 0.016 0.007 —0.003 —0.013 0.049 0.022 0.015 —0.017 —0.048 
一 0.3 0.009 0.010 0.005 —0.007 —0.016 0.051 0.015 0.012 —0.022 —0.051 
15 0 0.008 0.014 0.000 —0.007 —0.018 0.056 0.019 0.009 —0.017 —0.049 
0.3 0.004 0.010 0.006 —0.011 —0.018 0.045 0.022 0.011 —0.017 —0.053 
0.5 0.006 0.008 0.008 —0.008 —0.022 0.051 0.019 0.017 —0.014 —0.059 
200 
—-0.5 0.002 —0.007 —0.016 —0.002 —0.005 0.004 —0.014 —0.026 —0.029 —0.040 
一 0.3 0.004 一 0.003 —0.016 —0.006 —0.003 0.006 —0.008 —0.026 —0.033 —0.035 
30 0 0.004 —0.006 —0.017 —0.008 —0.001 0.005 —0.013 —0.031 —0.034 —0.033 
0.3 0.005 —0.010 —0.013 —0.007 0.001 0.008 —0.018 —0.029 —0.037 —0.032 
0.5 0.004 —0.009 —0.013 —0.004 0.004 0.008 —0.017 —0.028 —0.030 —0.029 
—-0.5 —0.008 —0.006 —0.012 0.022 —0.024 0.019 —0.000 —0.020 0.010 —0.054 
一 0.3 —0.007 —0.008 —0.008 0.020 —0.027 0.017 —0.001 —0.016 0.013 —0.060 
15 0 —0.010 —0.007 —0.006 0.014 —0.031 0.018 —0.003 —0.015 0.003 —0.062 
0.3 —0.016 —0.008 —0.004 0.012 —0.029 0.007 —0.001 —0.008 —0.000 —0.060 
0.5 —0.012 —0.006 —0.004 0.012 —0.026 0.007 —0.003 —0.009 0.000 —0.057 
500 
—-0.5 0.008 0.011 —0.018 0.013 —0.017 0.011 0.005 —0.031 —0.008 —0.047 
一 0.3 0.005 0.011 —0.020 0.014 —0.018 0.007 0.006 —0.031 —0.008 —0.046 
30 0 0.006 0.014 —0.016 0.015 —0.018 0.007 0.012 —0.030 —0.009 —0.047 
0.3 0.007 0.013 —0.016 0.018 —0.020 0.009 0.010 —0.030 —0.007 —0.043 
0.5 0.008 0.014 —0.014 0.017 —0.020 0.008 0.010 —0.027 —0.010 —0.041 


iE: JRT-PINC = KA- 


加 工 速度 ; N= 样本 量 ;I= 题目 数量 ; p = 能 力 与 速度 之 间 相 关 。 


A S22 ”研究 1 中 题目 参数 的 返 真性 


对 级 概率 态 输入 ， 品 音 连接 模型 ; HO-PINC = 高 阶 概率 态 输入 ,噪音 连接 模型 ; 0 = 高 阶 潜在 能 力 ; + = 


JRT-PINC HO-PINC 

N I Por g S e 1/0° g s 
Bias RMSE Bias RMSE Bias RMSE Bias RMSE Bias RMSE Bias RMSE 
—0.5 0.004 0.055 0.022 0.056 40.001 0.037 0.011 0.028 0.055 0.077 0.118 0.138 
—0.3 0.005 0.054 0.022 0.057 -0.001 0.037 0.011 0.028 0.057 0.078 0.117 0.137 
200 15 0 0.006 | 0.055 0.022 0.056 -0.001 0.036 0.011 0.028 0.056 0.078 0.119 0.139 
0.3 0.007 0.055 0.022 0.057 -0.002 0.037 0.011 0.028 0.057 0.079 0.118 0.138 
0.5 0.007 0.055 0.023 0.060 -0.002 0.037 0.011 0.028 0.057 0.080 0.120 0.141 
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JRT-PINC HO-PINC 

N I Por s E l/o? g s 
Bias RMSE Bias RMSE Bias RMSE Bias RMSE Bias RMSE Bias RMSE 
—0.5 0.005 0.043 0.013 0.051 -0.002 0.034 0.012 0.029 0.043 0.061 0.122 0.143 
—0.3 0.004 0.044 0.013 0.051 -0.003 0.034 0.012 0.029 0.042 0.061 0.124 0.146 
30 0 0.005 0.044 0.013 0.049 -0.002 0.034 0.012 0.029 0.043 0.062  Á 0.123 0.145 
0.3 0.005 0.043 0.014 0.049 0.004 0.035 0.012 0.029 0.043 0.062 0.123 0.145 
0.5 0.004 0.043 0.013 0.050 -0.003 0.034 0.012 0.029 0.043 0.061 0.124 0.145 
—0.5 0.006 0.043 0.011 0.044 0.000 0.022 0.004 0.017 0.046 0.061 0.083 0.099 
—0.3 0.006 0.044 0.010 0.043 -0.001 0.022 0.004 0.017 0.047 0.061 0.083 0.099 
15 0 0.007 0.044 0.009 0.045 -0.000 0.022 0.004 0.017 0.049 0.063 0.084 0.101 
0.3 0.008 0.045 0.010 0.045 -0.001 0.022 0.004 0.017 0.049 0.063 0.082 0.100 
0.5 0.006 0.044 0.008 0.045 -0.000 0.022 0.004 0.017 0.049 0.064 0.083 0.100 
M —0.5  -0.000 0.029 0.002 0.037 0.000 0.021 0.005 0.017 0.027 0.039 0.080 0.095 
—0.3 0.000 0.029 0.003 0.036 0.000 0.022 0.005 0.017 0.027 0.039 0.080 0.096 
30 0 —0.001 0.029 0.003 0.037 0.001 0.021 0.005 0.017 0.027 0.039 0.079 0.094 
0.3 -0.001 0.029 0.001 0.035 0.000 0.022 0.005 0.017 0.026 0.038 0.078 0.093 
0.5  -0.002 0.029 0.000 0.035 0.001 0.022 0.005 0.017 0.026 0.038 0.078 0.093 

RS23 ”研究 1 中 方差 协 方差 矩阵 和 题目 均值 向 量 的 平均 Bias 
Litem person 题目 均值 向 量 
N I Por 
Yu Ziz E13 X» E X3 Xp X» Hy- H, He 

—0.5 0.000 0.200 0.026 | —0.037 —0.053 0.095 — —0.003 0.002 0.055 -0.179  —0.001 
-0.3  —0.025 0.226 0.031  —0.065 —0.056 0.095  —0.002 0.002 0.073 —0.194  —0.001 
15 0 —0.027 0.230 0.030 -—0.082 —0.052 0.095 0.001 0.003 0.078  —0.190 -0.012 
0.3 —0.025 0.225 0.032 —0.079 —0.052 0.095 0.003 0.003 0.085  -0.203  -0.002 
0.5  —0.002 0.197 0.026 —0.031 —0.042 0.094 0.002 0.003 0.083  -0.198  —0.002 
oe —0.5 0.033 0.106 | —0.006  —0.092 —0.013 0.046 — —0.006 0.005 0.050 -0.124  -0.002 
—0.3 0.037 0.103  —0.004 —0.087 —0.017 0.046 — —0.007 0.005 0.045  -0.119  —-0.003 
30 0 0.022 0.114 —0.002 -—0.107 —0.015 0.046 — —0.004 0.005 0.059  -0.142  —0.007 
0.3 0.043 0.088 | —0.003 —0.078 —0.012 0.046 — —0.002 0.005 0.050 -0.140  —0.004 
0.5 0.044 0.085  -0.003 -0.071 —0.012 0.046 — —0.000 0.005 0.041  -0.127  —0.003 
—0.5 0.096 0.053 —0.004 0.087 —0.009 0.096 0.002 0.002 0.053  —0.090 0.000 
—0.3 0.100 0.057  —0.010 0.075 —0.004 0.095 0.002 0.002 0.051  -0.085  -0.001 
15 0 0.091 0.072  —0.005 0.063 —0.007 0.096 0.002 0.002 0.071  -0.085  -0.011 
0.3 0.079 0.096 | —0.007 0.034 —0.009 0.096 0.003 0.002 0.071  —0.091  —-0.001 
0.5 0.101 0.078 | —0.011 0.048 —0.005 0.096 0.003 0.002 0.047  —-0.051  —0.000 
is —0.5 0.057 -0.019 —0.010 0.071 0.020 0.044  —0.003 0.002 —0.007 0.018 0.000 
—0.3 0.053  —-0.013  -0.009 0.063 0.019 0.045 — —0.002 0.002 —-0.001  —0.001 0.000 
30 0 0.067  —0.036 -0.013 0.087 0.025 0.044  —0.002 0.002 —0.006 0.004  —0.004 
0.3 0.071  —0.048 -0.012 0.096 0.025 0.044  —0.002 0.002 —0.019 0.024 0.000 
0.5 0.078 | —0.058 —0.012 0.108 0.025 0.044 — —0.001 0.002 —0.028 0.041 0.001 
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R S2.4 ”研究 1 中 方差 协 方差 矩阵 和 题目 均值 向 量 的 平均 RMSE 


Litem Lperson 题目 均值 向 量 
N I Por 
Xu Xn Xs En X» jm Xn X» H, A He 
-0.5 0.325 0.438 0.081 0.471 0.122 0.095 0.018 0.007 0.195 0.296 0.012 
-0.3 0.287 0.414 0.077 0.437 0.119 0.096 0.020 0.007 0.195 0.333 0.010 
15 0 0.277 0.408 0.079 0.431 0.113 0.095 0.019 0.007 0.191 0.337 0.016 
0.3 0.275 0.409 0.074 0.420 0.113 0.095 0.019 0.007 0.213 0.363 0.011 
0.5 0.287 0.430 0.074 0.482 0.118 0.005 0.018 0.007 0.199 0.376 0.011 
ai -0.5 0.176 0.217 0.050 0.269 0.085 0.047 0.014 0.007 0.126 0.265 0.008 
-0.3 0.184 0.218 0.051 0.257 0.089 0.046 0.015 0.008 0.137 0.266 0.007 
30 0 0.197 0.231 0.048 0.269 0.081 0.047. 0.017 0.008 0.145 0.242 0.010 
0.3 0.191 0.218 0.046 0.250 0.081 — 0.047 0.018 0.008 0.152 0.242 0.009 
0.5 0.192 0.218 0.046 0.248 0.078 0.046 0.017 0.007 0.158 0.259 0.008 
-0.5 0.285 0.325 0.067 0.415 0.089 0.096 0.010 0.004 0.206 0.388 0.005 
-0.3 0.284 0.331 0.066 | 0.432 0.084 0.005 0.0011 0.005 0.191 0.368 0.005 
15 0 0.267 0.336 0.063 0.444 0.083 0.096 0.0011 0.006 0.191 0.352 0.012 
0.3 0.278 0.352 0.066 0.423 0.094 0.096 0.010 0.006 0.212 0.386 0.005 
0.5 0.294 0.365 0.064 0.463 0.089 0.096 0.010 0.006 0.208 0.388 0.005 
S -0.5 0.163 0.195 0.036 0.290 0.071 0.045 0.008 0.004 0.114 0.261 0.004 
-0.3 0.163 0.189 0.035 0.280 0.069 0.045 0.008 0.004 0.112 0.239 0.004 
30 0 0.174 0.202 0.036 0.288 0.071 0.044 0.010 0.004 0.120 0.261 0.006 
0.3 0.170 0.197 0.036 0.295 0.071 0.045 0.010 0.004 0.123 0.248 0.005 
0.5 0.173 0.202 0.037 0.311 0.072 0.044 0.008 0.003 0.124 0.235 0.005 
S3 ”研究 2 补充 内 容 
S3.1 研究 2 (FRR 1) 补 充 结果 
表 S3.1 研究 2 (FRR 1) 中 题目 参数 的 返 真 性 
分 析 模 型 Ho 指标 g s E 9 l/o? 
平均 Bias 0.005 0.011 0.000 —0.007 0.010 
= 平均 RMSE 0.053 0.055 0.049 0.046 0.028 
CJRT-PINC-0 
平均 Bias 0.002 0.002 0.001 —0.029 0.012 
A 平均 RMSE 0.055 0.049 0.061 0.062 0.030 
平均 Bias 0.061 0.113 
平均 RMSE 0.081 0.134 
HO-PINC 
平均 Bias 0.065 0.111 
s 平均 RMSE 0.084 0.131 
表 S32 ”研究 2 (FAR DJ) 中 题目 参数 方差 协 方差 矩阵 和 均值 向 量 的 返 真 性 
Litem 题目 均值 向 量 
Ho 指标 
Xu or Xi Ly Xa Xs ly 从 m 
平均 Bias —0.054 0.241 0.025 —0.124 —0.042 0.094 0.081 —0.093 0.000 
a 平均 RMSE 0.310 0.406 0.080 0.367 0.121 0.095 0.228 0.395 0.027 
平均 Bias —0.023 0.172 0.009 0.058 —0.010 0.094 0.042 0.043 0.001 
ds 平均 RMSE 0.252 0.374 0.078 0.472 0.123 0.094 0.216 0.411 0.045 
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S3.2 ”研究 2 (FRR 2) 数 据 生成 与 结果 

为 了 更 符合 实际 测试 的 复杂 情境 ， 研 究 设置 不 同 题目 中 理想 作答 概率 对 RT 的 影响 不 同 , 因此 数据 生 
成 中 设 定 自 变量 交叉 负载 (Kj) 满足 方差 为 0.15 的 正 态 分 布 ， 其 中 低 影 响 效应 pu, = 0.1， 高 影响 效应 hk = 0.5。 
其 余 参数 设 定 与 研究 1 和 研究 2 ( 子 研 究 1) 相 同 。 根 据 CJRT-PINC-m (正文 公式 2~3 和 10~11) 生 成 所 有 被 
试 在 所 有 题目 上 的 RA 和 RT. 

使 用 CJRT-PINC-m 和 HO-PINC 分 析 该 数据 。 结 果 显 示 所 有 参数 的 PSRF 均 小 于 1.2， 表 示 各 参数 均 已 
收敛 。 附 录 表 S3.3 呈现 了 能 力 参 数 与 加 工 速度 参数 的 返 真 性 ， 附 录 表 S3.4 呈现 了 属性 参数 的 返 真 性 。 首 
先 , CJRT-PINC-m 对 所 有 参数 的 返 真 性 均 优 于 HO-PINC 的 。 其 次 , TE CJRT-PINC-m 中 ,由 于 RT 没有 为 能 
力 直接 提供 信息 ,所 以 能 力 参 数 的 RMSE 与 研究 1 中 JRT-PINC 的 基本 一 致 。 再 有 ， 随 着 交叉 负载 均值 提 
高 ， 能 力 、 加 工 速度 和 属性 的 返 真性 均 有 所 提高 。 题 目 参数 和 方差 协 方差 矩阵 参数 的 返 真 性 见 附录 表 S3.5 
MK S3.6。 整 体 而 言 ， CJRT-PINC-m 在 不 同 模拟 条 件 下 模型 参数 的 返 真 性 良好 , 均 优 于 不 考虑 RT 的 
HO-PINC 的 。 


X S33 ”研究 2 ( 子 研究 2) 中 被 试 参数 估计 返 真 性 


0 T 
分 析 模 型 Ho ; : 
Bias RMSE Cor Bias RMSE Cor 
0.1 —0.007 0.461 0.887 0.000 0.135 0.978 
CJRT-PINC-m 
0.5 —0.018 0.446 0.894 —0.005 0.136 0.985 
0.1 —0.009 0.482 0.876 
HO-PINC 
0.5 —0.020 0.480 0.875 


TE: CJRT-PINC-m = 基于 属性 的 联合 -交叉 负载 概率 态 输入 ,噪音 连接 模型 ; HO-PINC = 高 阶 概率 态 输 入 ,噪音 连接 模型 ; 0 = 能 力 ; 
T= 加 工 速度 ; he = 交叉 负载 均值 ; Bias = 所 有 被 试 的 平均 偏差 ; RMSE = 所 有 被 试 的 平均 均 方 根 误差 ; Cor = 估计 值 与 真 值 之 间 的 
相关 系数 。 


表 S3.4 ”研究 2 ( 子 研究 2) 概 率 态 属性 参数 估计 返 真 性 


分 析 模 型 Ho 指标 m m» ms ma ms 
Bias 0.006 —0.014 —0.021 0.012 —0.026 
0.1 RMSE 0.129 0.131 0.140 0.154 0.144 
Cor 0.904 0.905 0.901 0.888 0.873 
CJRT-PINC-m 
Bias 0.012 —0.010 0.002 —0.009 —0.005 
0.5 RMSE 0.127 0.124 0.132 0.135 0.135 
Cor 0.907 0.910 0.906 0.897 0.882 
Bias 0.040 0.016 —0.006 —0.009 —0.054 
0.1 RMSE 0.153 0.145 0.149 0.154 0.159 
Cor 0.891 0.894 0.888 0.877 0.861 
HO-PINC 
Bias 0.038 0.012 —0.006 —0.021 —0.065 
0.5 RMSE 0.154 0.148 0.154 0.156 0.159 
Cor 0.889 0.892 0.886 0.876 0.859 


HE: CIRT-PINC-m = 基于 属性 的 联合 -交叉 负载 概率 态 输入 ,噪音 连接 模型 ; HO-PINC = 高 阶 概率 态 输 入 ,噪音 连接 模型 ; he = 交叉 负载 
均值 ; m= 概率 态 属 性 ; Bias = 所 有 被 试 的 平均 偏差 ; RMSE = 所 有 被 试 的 平均 均 方 根 误差 ; Cor = 估计 值 与 真 值 之 间 的 相关 系数 。 


表 S3.5 研究 2 ( 子 研究 2) 中 题目 参数 的 返 真性 


分 析 模 型 Ho 指标 g s E K 1/o? 
T 平均 Bias —0.005 —0.001 0.026 —0.071 0.010 
RING 平均 RMSE 0.058 0.050 0.103 0.201 0.029 
Hs 平均 Bias 0.002 0.009 0.035 —0.102 0.010 
平均 RMSE 0.048 0.054 0.097 0.204 0.028 
Ji 平均 Bias 0.057 0.114 
€ 平均 RMSE 0.078 0.134 
De 平均 Bias 0.064 0.110 
平均 RMSE 0.082 0.132 
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表 S3.6 ”研究 2 ( 子 研究 2) 中 题目 参数 方差 协 方差 矩阵 和 均值 向 量 的 返 真 性 


Litem 题目 均值 向 量 
Ha 指标 
Xi Xi Eu Èi 33 Xa Hy L m 
平均 Bias —0.115 0.319 0.048 —0.167 —0.050 0.087 —0.018 0.150 0.026 
is 平均 RMSE 0.275 0.429 0.100 0.393 0.112 0.090 0.243 0.431 0.067 
平均 Bias 0.058 0.120 0.014 0.059 —0.031 0.105 0.029 —0.008 0.035 
s 平均 RMSE 0.363 0.466 0.079 0.670 0.130 0.107 0.170 0.368 0.062 
SA 研究 3 补充 结果 
表 $4.1 研究 3 中 被 试 参数 的 返 真 性 
0 t 
数据 生成 模型 数据 分 析 模 型 
Bias RMSE Cor Bias RMSE Cor 
JRT-PINC 0.000 0.457 0.887 —0.001 0.120 0.951 
JRT-PINC CJRT-PINC-0 —0.002 0.475 0.878 —0.002 0.181 0.885 
CJRT-PINC-m —0.001 0.475 0.877 —0.003 0.132 0.943 
JRT-PINC 0.007 0.412 0.910 —0.013 0.496 0.600 
CJIRT-PINC-0 CJRT-PINC-0 0.009 0.286 0.959 —0.016 0.194 0.886 
CJRT-PINC-m 0.010 0.302 0.954 —0.016 0.356 0.740 
JRT-PINC 0.003 0.475 0.879 0.008 0.171 0.902 
CIRT-PINC-m CJRT-PINC-0 0.008 0.466 0.884 0.004 0.143 0.936 
CJRT-PINC-m 0.005 0.456 0.889 0.005 0.143 0.937 
X S42 ”研究 3 中 属性 参数 的 的 平均 Bias 
数据 生成 模型 数据 分 析 模 型 m, m» ms ma ms 
JRT-PINC 0.006 0.007 0.008 —0.008 —0.022 
JRT-PINC CIRT-PINC-0 0.005 0.005 0.007 —0.006 —0.023 
CIRT-PINC-m 0.015 0.011 0.010 —0.004 —0.028 
JRT-PINC —0.017 —0.014 —0.019 —0.024 —0.026 
CIRT-PINC-0 CIRT-PINC-0 —0.016 —0.009 —0.018 —0.018 —0.017 
CJRT-PINC-m 0.016 0.012 0.029 0.020 —0.038 
JRT-PINC 0.031 0.001 —0.020 0.002 —0.015 
CJRT-PINC-m CJRT-PINC-0 0.026 0.009 —0.024 0.002 —0.020 
CIRT-PINC-m 0.033 0.011 —0.016 —0.001 —0.013 
表 S43 ”研究 3 中 属性 参数 的 的 平均 RMSE 
数据 生成 模型 数据 分 析 模 型 mi m» m; ma ms 
JRT-PINC 0.126 0.138 0.142 0.147 0.143 
JRT-PINC CJRT-PINC-0 0.128 0.140 0.146 0.148 0.145 
CJRT-PINC-m 0.132 0.143 0.144 0.151 0.147 
JRT-PINC 0.116 0.131 0.139 0.137 0.133 
CJRT-PINC-0 CJRT-PINC-0 0.088 0.103 0.146 0.109 0.103 
CJRT-PINC-m 0.156 0.142 0.110 0.130 0.150 
JRT-PINC 0.139 0.150 0.151 0.146 0.143 
CJRT-PINC-m CJRT-PINC-0 0.134 0.149 0.149 0.142 0.141 
CJRT-PINC-m 0.137 0.143 0.142 0.139 0.136 
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XA S44 研究 3 中 属性 参数 的 的 Cor 


数据 生成 模型 数据 分 析 模 型 mi m m; m4 ms 
JRT-PINC 0.899 0.899 0.895 0.887 0.874 
JRT-PINC CJRT-PINC-0 0.894 0.894 0.888 0.880 0.866 
CJRT-PINC-m 0.893 0.894 0.889 0.879 0.865 
JRT-PINC 0.917 0.916 0.913 0.907 0.896 
CJRT-PINC-0 CJRT-PINC-0 0.956 0.955 0.954 0.953 0.949 
CJRT-PINC-m 0.938 0.945 0.952 0.950 0.937 
JRT-PINC 0.895 0.893 0.891 0.881 0.866 
CJRT-PINC-m CJRT-PINC-0 0.901 0.900 0.897 0.888 0.873 
CJRT-PINC-m 0.903 0.903 0.901 0.892 0.877 


S5 实证 研究 补充 结果 


X SS.1 研究 3 实证 数据 Q 和 矩阵 


题目 Ki K: K; K4 Ks Ke K; 
CM015Q01 0 1 0 0 1 0 0 
CM015Q02D 1 0 0 0 1 0 0 
CM015Q03D 1 0 0 0 1 0 0 
CM020Q01 0 0 1 0 0 0 1 
CM020Q02 0 0 1 0 0 0 1 
CM020Q03 0 0 1 0 0 0 1 
CM020Q04 0 0 1 0 0 0 1 
CM038Q03T 0 0 0 1 0 1 0 
CM038Q05 0 0 0 1 0 1 0 
CM038Q06 0 0 0 1 0 1 0 

i Cor = 0.908 ? | Cor = 0.945 a 
e 
2 
a i - 
o o 
Z A 
a 0 a) 
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1 1 1 Tes -3 3 LL | | 1 1 1 | 
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图 S5.1 实证 数据 中 模型 加 工 速度 参数 估计 值 散 点 图 . 
HE: y 轴 对 应 模型 比 x 轴 对 应 模式 的 估计 值 更 大 ， 则 散 点 趋势 高 于 对 角 线 表 明 ; 反之 , 散 点 趋势 低 于 对 角 线 。 
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E 数 据 中 模型 潜在 能 力 参 数 估计 值 散 点 图 . 
HE: y 轴 对 应 模型 比 x 轴 对 应 模式 的 估计 值 更 大 ， 则 散 点 趋势 高 于 对 角 线 


BAA, 反之 , 散 点 趋势 低 于 对 角 线 。 


